주식투자

과적합(overfitting)과 우연 - 시험을 자주 쳤더니 1등도 해 보네요, 철수와 평행우주

오렌지사과키위 2024. 8. 30. 14:49

평행우주(Parallel Universe)에 철수가 있습니다. 100개의 평행우주가 있고, 평행우주마다 철수가 존재합니다. 구분을 위해 우주1, 우주2, ..., 우주100에 살고 있는 철수를 각각 철수1, 철수2, ..., 철수100이라 부르겠습니다. 철수들은 중학교 2학년이고, 수학 실력은 같습니다. 동일한 문제로 수학 시험을 친다면 개별 문제에 대한 답과 총점도 같을 것입니다. 평행우주마다 문제가 다르게 출제된다면 어떻게 될까요?

철수는 방정식 문제는 잘 풀지만, 도형 문제는 어려워합니다. 방정식 문제가 많이 나온 우주의 철수들은 도형 문제가 많이 나온 우주의 철수들보다 상대적으로 높은 점수를 받을 거라 기대할 수 있습니다.

우주7에 살고 있는 철수7에게 주어진 10문제 중 8개는 방정식 문제였습니다. 철수7은 평균보다 높은 점수를 받을 가능성이 큽니다. 철수7이 가장 높은 점수를 받았다면, 철수7은 나머지 철수들보다 수학 실력이 뛰어난 것일까요?

우연과 시험 성적

철수7이 가장 높은 점수를 받은 것은 우연입니다. 철수들의 수학 실력은 동일하지만, 시험 문제의 임의성에 때문에 실력 차이가 있는 것처럼 보이는 것입니다.

수학 시험을 친 다음날에 영어 시험이 있습니다. 철수들의 영어 실력도 동일합니다. 시험 준비를 할 시간은 하루 밖에 없습니다. 각각의 철수는 무작정 단어를 외우기로 했습니다.

시험 범위에 해당되는 100개의 단어 중에서 30개 밖에 외울 시간이 없습니다. 각각의 철수는 무작위로 30개 단어를 골라 외웁니다. 다음날 모든 철수에게 같은 영어 문제가 출제되었습니다. 철수들의 영어 성적은 동일할까요?

시험 문제 중에서 외운 단어가 나온 비율이 높은 철수는 상대적으로 좋은 점수를 받을 것입니다. 그렇다면, 가장 높은 영어 점수를 받은 철수는 다를 철수들보다 영어 실력이 뛰어난 것일까요?

수학 시험과 마찬가지로 영어 시험에서도 어느 범위를 공부했는지 우연에 따라 실력 차이가 있는 것처럼 보일 수 있습니다.

철수의 단짝인 영희는 암기를 잘합니다. 철수가 30개 단어를 외우는 동안 영희는 50개 단어를 외울 수 있습니다. 모든 우주에서 영희는 철수보다 높은 영어 성적을 받게 될까요?

영어 시험 문제수가 하나라면, 영희는 맞추고 철수는 틀릴 확률이 0.5 × (1 - 0.3) = 35%입니다. 영희는 틀리고 철수는 맞출 확률은 0.5 × 0.3 = 15%입니다. 영희와 철수가 같은 점수를 받을 확률은 1 - (35% + 15%) = 50%입니다.

영희가 철수보다 영어 실력이 뛰어나지만, 개별 우주에서는 구분이 안되거나 철수가 더 높은 점수를 받을 확률은 15% + 50% = 65%에 달합니다.

100개의 우주에서 영희와 철수 중 높은 영어 점수를 받은 사람을 모아 전우주 영어 경진대회를 연다면, 영희가 35 + 50 / 2 = 60명, 철수가 40명이 뽑히게 됩니다. 참고: 영희와 철수의 점수가 동일한 경우 임의로 선택한 경우입니다.

우연과 과적합

이전 글에서 과적합(overfitting; 과대적합, 과최적화)을 해석하는 한 가지 방법으로 편향-분산 트레이드오프(Bais-variance tradeoff)를 소개하였습니다. 이 관점에서 과적합은 모델의 복잡도가 지나치게 높아 의미 없는 노이즈를 중요시하는 기억 효과에 의해 발생한다고 볼 수 있습니다. 참고: 과적합(overfitting)은 왜 발생하는 것일까? - 공부를 너무 많이 했더니 성적이 떨어졌어요.

적절한 수준의 복잡도를 가진 모델을 사용하더라도 과적합은 발생할 수 있습니다. 100명의 철수는 같은 수학 실력을 가지고 있지만, 우연히 시험 문제가 달라서 성적 차이가 나는 것처럼 보일 수 있습니다.

서로 다른 수학 시험을 치렀던 철수들의 평균 점수는 50점입니다. 철수7은 60점으로 가장 높은 점수를 받았습니다. 다를 철수들이 철수7이 풀었던 문제를 풀면 철수7과 같은 60점을 받게 됩니다. 철수7은 다른 철수보다 수학 실력이 뛰어나지 않습니다.

평행우주의 수가 늘어날수록 높은 점수를 받는 철수를 발견할 가능성은 커집니다. 실제로는 차이가 없더라도 차이가 있다고 오인할 수 있습니다.

퀀트 투자 전략을 수립하기 위해 2010년 ~ 2019년까지 10년치 데이터를 학습 데이터(training data)로 사용하고, 2020년 ~ 2023년까지의 4년치 데이터를 테스트 데이터(test data)로 사용하면, 똑같은 문제로 공부하고 동일한 문제로 시험을 치니 이러한 종류의 과적합은 발생하지 않을 거라 생각할 수 있습니다. 참고: 투자 전략 생성(파라미터 튜닝)은 학습 데이터로, 평가는 테스트 데이터로 하는 경우입니다.

개별 퀀트 투자 전략은 학습 데이터의 일부만을 이용합니다. 전략1은 고ROE를, 전략2는 저PBR을, 전략3은 저PER+저PBR을 사용합니다. 철수로 치면, 철수1은 짝수 페이지만, 철수2는 홀수 페이지만, 철수3은 각 단원 첫 10페이지까지만 공부하고 시험을 치는 셈입니다.

공부한 범위가 다르기에 동일한 실력이지만 시험 점수는 차이가 날 수 있는 것처럼, 퀀트 투자 전략도 장기적으로 동일한 수준의 성과를 가졌지만, 마치 성과 차이가 있는 것처럼 보일 수 있습니다.

퀀트 투자 전략을 수립하는 데 사용하는 기초 데이터가 고정되면, 모든 투자 전략이 같은 데이터를 사용하는 것처럼 보이지만, 개별 투자 전략은 조금씩 다른 데이터를 사용한다고 볼 수 있습니다. 다만 조금씩 다른 데이터를 이용함으로써 경우에 따라서는 우연에 의한 발생할 수 있는 차이를 충분히 넘어서는 이득을 얻을 수는 있습니다.

민수는 철수와 마찬가지로 하루 동안 영어 단어 30개만 외울 수 있습니다. 철수와는 달리 민수는 선생님이 중요하다고 지적해 준 50개 단어 중에서 30개 단어를 골라 외웠습니다. 민수들의 평균 시험 점수는 철수들보다 더 높을 거라 기대할 수 있습니다.

통계학에서 t-검증(t-test)과 같은 유의성 검증 방법론은 우연에 의한 차이라고 볼 수 있는 정도를 추정하는 방법입니다. 통계적 검증 방법을 사용하는 경우에도 평행우주의 수가 늘어나면 고정된 p-값(p-value) 이하의 철수가 발견될 가능성은 높아집니다. 평행우주의 수를 고려해서 p-값을 적절히 낮추어서 사용할 필요가 있습니다.

데이비드 스피겔할터의 <숫자에 약한 사람들을 위한 통계학 수업>은 과적합과 검증에 대해 자세하게 소개한 책입니다. 참고: 숫자에 약한 사람들을 위한 통계학 수업 (데이비드 스피겔할터) - 현실에서 통계란 무엇인지 설명하는 책 (서평)

정리하며

과적합은 지나치게 복잡한 모델에 의해서도 발생할 수 있지만, 우연히 발생할 수도 있습니다. 매일매일 시험을 치다 보면, 본실력과는 무관하게, 철수는 언젠가 고득점의 영광을 얻을 수 있습니다.

기대에 부합하는 만족스러운 수준의 또는 깜짝 놀랄만한 수준의 수익률(또는 투자 효율)을 가진 퀀트 투자 전략을 발견하였거나 누군가 알려준다면, 때로는 보수적으로 바라볼 필요가 있습니다.

어떻게 하면 이 투자 전략이 유용하지 않음을 확인할 수 있을까?

함께 읽으면 좋은 글:

도움이 되었다면, 이 글을 친구와 공유하는 건 어떻까요?

facebook twitter kakaoTalk naver band