지난 글에서 통계적 검정의 원리와 신뢰 구간(confidence interval)의 의미를 살펴보았습니다. 통계적 검정은 과거 데이터에 대한 요약이지, 미래를 예측하는 도구가 아님을 설명했습니다. 하지만 투자자는 통계적 분석 결과를 기반으로 미래를 예측할 수 있다는 희망을 가질 수 있습니다. 그 근본적인 원인은 현실에서 통계적 경향이 단기간에 변하지 않을 수 있으며, 통계적 분석 결과가 과거 데이터에 대한 설명이라는 점을 충분히 인지하지 못했기 때문입니다. 지난 글: [중급 46] 검정은 어떤 원리일까? (대응 표본 t-검정; paired t-test) - 검정은 미래를 예측하는 분석이 아니다
이 글에서는 대응 표본 t-검정(paired t-test)을 사례로 이러한 현상을 살펴봅니다.
주의: 이 글은 특정 상품 또는 특정 전략에 대한 추천의 의도가 없습니다. 이 글에서 제시하는 수치는 과거에 그랬다는 기록이지, 앞으로도 그럴 거라는 예상이 아닙니다. 분석 대상, 기간, 방법에 따라 전혀 다른 결과가 나올 수 있습니다. 데이터 수집, 가공, 해석 단계에서 의도하지 않은 오류가 있을 수 있습니다. 일부 설명은 편의상 현재형으로 기술하지만, 데이터 분석에 대한 설명은 모두 과거형으로 이해해야 합니다.
S&P 500 지수와 나스닥 100 지수
다음은 S&P 500 지수를 추종하는 SPY와 나스닥 100 지수를 추종하는 QQQ의 누적 수익률 그래프입니다.
1999년 3월 10일에 상장된 QQQ 기준으로 그린 그래프입니다. 장기적으로 QQQ의 누적 수익률이 높았지만, 조금 애매합니다. 좀 더 긴 기간으로 살펴보기 위해 S&P 500 PR 지수인 GSPC와 나스닥 100 PR 지수인 NDX로 살펴봅니다.
GSPC와 NDX는 모두 배당이 미고려된 PR 지수입니다. GSPC가 NDX보다 연 1 ~ 2% 정도 배당률이 더 높다고 보면 됩니다. 참고: ^GSPC와 같은 삿갓(^) 표시는 야후 파이낸스에서 지수를 의미하는 기호입니다.
지난 10년간(2,520거래일)의 데이터를 보고, S&P 500 또는 나스닥 100 지수에 투자한다고 가정해 보겠습니다. 다음은 10년간 투자했을 때 GSPC 대비 NDX의 상대 자산비입니다.
닷컴 버블(dot-com bubble)이 발생했던 1990년 후반에 NDX는 GSPC 대비 높은 수익률을 거두었고, 이후 거품이 꺼지면서 상대 자산비가 급격히 낮아졌음을 알 수 있습니다. 하지만 전반적으로 10년 투자 시 NDX는 GSPC 대비 10년 투자 시 최근에는 2배 가까운 자산을 만들 수 있었던 것을 알 수 있습니다.
p-값의 변화와 투자자의 선택
피참고씨는 신중하는 투자하는 투자자입니다. 피참고씨가 투자를 결정하기 전에, 두 지수의 수익률 차이가 우연인지, 아니면 우연이라 보기 어려운지 판단하기 위해 대응 표본 t-검정(paired t-test)을 한다고 하겠습니다.
10년치 일일 로그 수익률(log return)에 대해 대응 표본 t-검정으로 구한 p-값(p-value)의 변화를 함께 그리면 다음과 같습니다. 참고: [중급 36] 로그 수익률(log return)의 본질은 무엇일까? (수익률이 아니지만 수익률로 간주할 수 있는 이유는 무엇일까?)
그래프에 y축이 2개이기에 조금 복잡합니다. 왼쪽은 앞의 그래프에서 본 상대 자산비이고, 오른쪽은 p-값입니다. 둘 다 로그 스케일(log scale)로 그려져 있습니다. 오렌지색 선은 해당 시점에서 지난 10년간의 수익률에 대해 대응 표본 t-검정으로 구한 p-값입니다.
닷컴 버블이 한창이었던 1990년대 후반에 p-값이 급격히 하락하고 있습니다. 신중한 피참고씨는 p-값이 1% 또는 0.1% 수준이 되면, "음. 이 정도로 큰 수익률 차이가 나는 것은 우연일 수 없어. NDX에 투자하는 것이 장기적으로 GSPC보다 유리할 거야"라고 생각할 수 있습니다.
하지만 그래프를 보면, 그 직후부터 NDX의 주가 하락폭이 GSPC보다 크고, p-값은 50% 이상으로 높아졌습니다. 피참고씨가 해당 시점부터 10년간 투자했다면, GSPC 대비 절반 정도의 자산이 되었을 수도 있습니다.
그렇다고 마냥 p-값을 보고 투자하는 것이 불리했던 것은 아닙니다. 피참고씨가 2010년대 후반에 p-값이 다시 1.0% 이하로 낮아졌을 때 투자했다면, 10년 투자 기준으로 GSPC 대비 2배의 자산이 될 수 있었기 때문입니다.
p-값을 참고하여 투자했을 때, 왜 어떤 경우에는 좋은 수익률을 거둘 수 있었고, 또 다른 경우에는 그렇지 않았을까요? p-값은 미래에 대한 예측이 아니기 때문입니다. p-값이 낮으면, 과거 데이터에 대해 두 자산의 수익률이 우연이라 보기 어려울 정도로 큰 차이가 발생했다는 뜻이지, 그 경향이 미래에도 이어진다는 의미가 아니기 때문입니다.
정리하며
검정 결과가 왜 미래에 대한 예측이 아닌지 S&P 500 지수와 나스닥 100 지수의 사례로 살펴보았습니다. 모든 통계적 분석은 어디까지나 과거 데이터에 대한 요약이지, 미래를 예측하는 도구가 아닙니다.
통계량을 미래에 대한 예측으로 활용하기 위해서는 투자가가 "이 통계적 경향은 미래에도 지속될 것이다"라는 가정을 추가해야 합니다. 물론 맞을 수도 있고 틀릴 수도 있습니다. 하지만 이는 통계량이 말해주는 것이 아닙니다. 통계량은 "자신이 미래에도 유효할 것이다"라는 이야기를 해 줄 수 없습니다. 미래에 대한 믿음은 통계의 몫이 아니라 투자자의 판단입니다.
참고 도서:
이어지는 글: [중급 48] 투자에서 분석과 예측의 역할은 무엇일까? (퀀트 투자는 주관적 판단이 배제된 투자일까?)
목차: [연재글 목차] 투자 성과 분석 (기초편, 초급편, 중급편): 순서대로 차근차근 읽으면 좀 더 이해가 쉽습니다.
'주식투자' 카테고리의 다른 글
[중급 부록 A1] 피어슨 상관 계수의 기하학적 해석 (표준화한 두 자산 간의 선형 상관성) (1) | 2025.07.11 |
---|---|
해외증권세전합병입금 (상장 폐지로 인한 매도 대금, 한국투자증권 미니스탁) (1) | 2025.07.01 |
Why Log Return Is Time, Not Return — and Why It Still Works as a Return [English] (0) | 2025.07.01 |
[중급 48] 투자에서 분석과 예측의 역할은 무엇일까? (퀀트 투자는 주관적 판단이 배제된 투자일까?) (0) | 2025.06.29 |
[중급 46] 통계적 검정은 어떤 원리일까? (대응 표본 t-검정; paired t-test) - 검정은 미래를 예측하는 분석이 아니다 (0) | 2025.06.27 |
[중급 45] 투자 전략 비교의 신뢰성 평가는 신뢰할 수 있는 것일까? (0) | 2025.06.26 |
[중급 44] 두 자산이 다르다면 평균-분산 그래프에 어떤 변화가 생길까? (하나씨와 두나씨는 무엇이 달랐던 것일까? - 해의 공간과 최적화) (1) | 2025.06.24 |
[중급 43] 두 자산이 동일하다는 것은 어떻게 정의할 수 있을까? (다른 동전을 던져 만든 주가 그래프는 같은 것일까? 하나씨와 두나씨의 투자) (2) | 2025.06.23 |