주식투자

[초급 4] 투자에서 수익률 모델로 왜 정규 분포를 사용할까?

오렌지사과키위 2024. 11. 1. 18:03

마침내 모두가 기다리던 즐거운 수학 시간이 돌아왔습니다. 통계학적 접근을 가능한 자제하고 있지만, 어쩔 수 없습니다. 동네 개울가에 놓을 작은 다리를 만들 때에는 체계화된 공학 지식의 필요성이 크지 않습니다. 하지만, 한강을 건널 큰 다리는 그렇게 건설할 수 없습니다. 대단위 공사이기에 요구 사항을 만족시키면서 건설비는 낮춰야 합니다. 합리적인 가정과 면밀한 시뮬레이션이 필요합니다. 이를 위해서는 공학 지식이 필요합니다. 위험은 회피하면서 수익률은 높이고 싶은 투자자의 마음과도 비슷합니다.

현실을 조금 더 쉽게 이해하고 논리적 추론을 원활하게 하기 위해서는 현실을 추상화한 모델이 필요합니다. 합리적인 모델이라면 현실과 다소 다른 점이 있더라도 현실의 일부를 설명할 수 있고 미래를 계획하는데 도움이 될 수 있습니다. 현실과 모델의 차이는 계속 발견되며, 그 차이를 줄이기 위해 지속적으로 모델을 개선해 나갑니다. 참고: 분야에 따라 모델을 개선하더라도 현실과의 차이가 쉽사리 좁혀지지 않을 수 있습니다. 금융 시장이 대표적인 예입니다.

이 글에서는 투자 분야에서 널리 쓰이는 정규 분포의 필요성에 대해 알아봅니다. 참고: 이 연재에서는 이해하기 쉬운 정규 분포 위주로 설명하지만, 상황에 따라서는 로그 정규 분포가 더 적절할 수 있습니다.

주의: 이 글은 특정 상품 또는 특정 전략에 대한 추천의 의도가 없습니다. 이 글에서 제시하는 수치는 과거에 그랬다는 기록이지, 앞으로도 그럴 거라는 예상이 아닙니다. 분석 대상, 기간, 방법에 따라 전혀 다른 결과가 나올 수 있습니다. 데이터 수집, 가공, 해석 단계에서 의도하지 않은 오류가 있을 수 있습니다. 일부 설명은 편의상 현재형으로 기술하지만, 데이터 분석에 대한 설명은 모두 과거형으로 이해해야 합니다.

확률 분포에 상수를 더하거나 곱하기

철수네 반의 직업 탐방 프로그램 참석자 수는 4명 또는 5명입니다. 확률 분포로는 [4명 × 50%, 5명 × 50%]과 같이 표현할 수 있습니다. 참고: 이 연재는 지난 글에서 소개한 예가 자주 재등장합니다. 가능하면 첫 편부터 순서대로 읽는 것이 이해하기 편할 수 있습니다. 관련 글: 투자 성과 분석의 기초 - 15. (마지막 편) 장기 투자는 왜 위험이 줄어드는가? (불확실성이 누적될수록 확실해진다고?) 

슈뢰딩거의 고양이를 키우는 철수네 반 담임 선생님은 직업 탐방 프로그램의 인솔자입니다. 인솔자를 포함한 참가 인원은 어떻게 될까요? 아래와 같이 수식으로 나타낼 수 있습니다.

참가 학생 수 + 인솔자 수 = [4명 × 50%, 5명 × 50%] + 1명 = [5명 × 50%, 6명 × 50%]

2차원 좌표에 확률 분포로 나타내면, 기존 확률 분포가 형태 변화 없이 오른쪽으로 1칸(1명) 그대로 이동한 것과 동일합니다.

인솔자를 포함하는 경우 사람 수의 분포 변화
인솔자를 포함하는 경우 사람 수의 분포 변화

직업 탐방을 나가면 한 곳만 들리기 아쉽습니다. 기왕 나온 김에 두 곳을 탐방한다고 하겠습니다. 중간에 참가하거나, 중단하는 학생이 없다면, 전체 탐방 경험수는 어떻게 표현할 수 있을까요?

4명의 학생이 프로그램에 참가했다면, 4명 × 2직업 = 8명가 됩니다. 5명이 참가했다면, 5명 × 2직업 = 10명 됩니다. 수식으로는 아래와 같이 표현할 수 있습니다.

참가 학생 수 × 탐방 직업 수 = [4명 × 50%, 5명 × 50%] × 2직업 = [8명 × 50%, 10명 × 50%]

앞서와 마찬가지로 2차원 좌표에서 확률 분포가 어떻게 변형되었는지 확인할 수 있습니다.

1회 프로그램에서 탐방 직업수에 따른 확률 분포의 변화
1회 프로그램에서 탐방 직업수에 따른 확률 분포의 변화

개별 사건인 4명 또는 5명의 발생 확률 50%는 그대로 유지됩니다. x축에서 위치만 4명 → 8명, 5명 → 10명으로 두 배가 됩니다.

확률 분포에 상수를 더하거나 곱하는 것은 어렵지 않습니다. 확률 자체는 변화가 없고, 사건(4명 또는 5명)의 위치만 조정됩니다. 참고: 엄밀하게는 확률 분포가 아니라 참가자 수를 나타내는 확률 변수에 값을 더하거나 곱합니다.

수식으로 일반화가 가능합니다. 인솔자 수를 b, 프로그램 시행 시 탐방하는 직업 수를 a로 두면 아래와 같이 계산할 수 있습니다.

[4명 × 50%, 5명 × 50%] × a직업 + b명 = [(4a + b)명 × 50%, (5a + b)명 × 50%]

확률 분포에 확률 분포를 더하기

지우는 철수의 옆반 친구입니다. 철수는 1반이고, 지우는 2반입니다. 1반과 2반이 함께 직업 탐방을 나갑니다. 지우네 반도 철수네 반과 같이 총 5명이고, 한 번에 참가하는 학생의 수는 4명 또는 5명입니다. 두 반의 참가자 수가 서로 관련이 없다면(independent) 전체 참가자 수는 어떻게 될까요?

아래와 같이 계산됩니다.

[4명 × 50%, 5명 × 50%] + [4명 × 50%, 5명 × 50%] = [8명 × 25%, 9명 × 50%, 10명 × 25%]

표로 나타내면 다음과 같습니다.

철수네 반 \ 지우네 반 4명 5명
4명 8명 9명
5명 9명 10명

2차원 좌표에 확률 분포로도 나타낼 수 있습니다.

한 반 또는 두 반이 직업 탐방에 참여할 때의 참가자 수의 확률 분포
한 반 또는 두 반이 직업 탐방에 참여할 때의 참가자 수의 확률 분포

확률 분포의 형태가 바뀌었습니다. 확률 분포 모양이 바뀌면 수식이나 계산이 복잡해질 수 있습니다. 반이 하나일 때는 4명과 5명으로 두 가지만 가능했지만, 반이 둘이 되니 8명, 9명, 또는 10명으로 3가지가 되었습니다. 더욱이 이전에는 4명과 5명의 확률이 동일했지만, 이제는 참가자 수에 따라 확률도 달라졌습니다.

철수네 반 하나만 봐도 동일한 현상이 발생합니다. 탐방 프로그램을 주기적으로 실시하면, 총 실시 횟수에 따른 총 참가자 수의 분포는 아래와 같습니다.

탐방 프로그램 횟수에 따른 총 참가자 수의 분포
탐방 프로그램 횟수에 따른 총 참가자 수의 분포

탐방 횟수가 늘어날수록 계산이 점점 복잡해집니다. 통계학자들은 이러한 계산을 손쉽게 하기 위한 연구를 하고, 특징을 파악하고 이름을 붙입니다. 이 확률 분포는 이름이 있습니다. 이항 분포(binomial distribution)라고 하며 수식으로 형식화되어 있습니다. 참고: 4명 또는 5명 두 가지 경우밖에 없기에 이항 분포입니다. 간단하게 계산하기 위해 4명을 0으로 5명을 1로 둘 수 있습니다.

하지만 이항 분포는 몇몇 제한된 상황에서만 확률 분포의 더하기 결과를 간결하게 도출할 수 있습니다. 더할 두 학률 분포의 사건 발생 확률이 서로 독립인 경우입니다. 참고: 예를 들어 [60%, 40%]는 [60%, 40%]와 동일한 확률 분포입니다..

철수네 반은 매회 직업 탐방 참가자 수가 4명 또는 5명으로 반반입니다. 매회 참가자 확률 분포는 동일합니다. 이전 참가자 수에 영향을 받지도 았습니다. 따라서 여러 번 더해도 이항 분포가 됩니다.

마찬가지로 지우네 반의 확률 분포는 철수네 반과 동일하며, 서로 독립이기에 함께 직업 탐방 프로그램을 진행하더라도 참석자 수는 이항 분포가 됩니다.

만일 지우네 반의 참가자 수의 확률 분포가 [4명 × 60%, 5명 × 40%]이라면 어떻게 될까요? 확률 분포를 더할 수는 있지만, 그 결과는 더 이상 이항 분포가 아닙니다.

3 + 4 = 7입니다. 두 개의 자연수를 더하면 또 다른 자연수가 됩니다. 결과가 자연수이니 자연수에 적용 가능한 법칙을 다시 적용할 수 있습니다. 7 + 2 = 9이며, 9 역시 자연수입니다.

하나의 자연수를 다른 자연수로 나누면 어떻게 될까요? 3 / 2 = 1.5입니다. 양의 유리수(분수)가 됩니다. 유리수가 되면 자연수를 전제한 연산이나 개념을 더 이상 적용할 수 없습니다. 예를 들어 홀수와 짝수는 정수에만 적용되는 개념입니다.

만일 처음부터 자연수가 아니라 양의 유리수라고 가정하면 어떻까요? 두 양의 유리수를 더하면 또 다른 양의 유리수가 됩니다. 한 양의 유리수를 다른 양의 유리수로 나누어도 양의 유리수가 됩니다. 더하기와 나누기는 양의 유리수에 대해 반복적으로 적용할 수 있는 연산(operator)입니다.

수학에서 어떤 연산 ab의 결과가 항상 a, b가 속한 집합 A의 원소이면, 연산 ◎는 집합 A에 대해 닫혀있다고 말합니다. 예를 들어, 자연수 a + 자연수 b = 자연수 c이니, + 연산은 자연수에 대해 닫힌 연산입니다.

투자에서 확률 분포에 대한 연산의 의미 (상수를 더하기나 곱하기)

투자에서 확률 분포에 대한 닫힌 연산은 왜 가정하고 싶은 것일까요? 앞서 모델을 이야기할 때 언급한 바와 같이, 논리적 추론을 원활하게 하기 위해서입니다.

투자에서는 수익률을 확률 분포로 표현할 수 있습니다. 예를 들어 S&P 500 TR 지수의 1년(250 거래일) 수익률 분포는 아래와 같습니다.

S&P 500 TR 지수의 1년(250 거래일) 수익률 분포
S&P 500 TR 지수의 1년(250 거래일) 수익률 분포

이 확률 분포(확률 변수)를 X라고 하겠습니다. 상수 bX에 더한다는 의미는 무엇일까요? 상수 b가 음수라면 확률 분포는 왼쪽으로 이동합니다. 아래는 5% 수익률을 차감했을 때의 결과입니다. 

5%의 인플레이션 또는 대출 이자가 고려된 경우
5%의 인플레이션 또는 대출 이자가 고려된 경우

5%는 무엇일까요? 예를 들어 인플레이션을 의미할 수 있습니다. 또는 어떤 투자자가 대출을 받아 투자했다면, 대출 이자율일 수도 있습니다. 그만큼 수익률이 낮아지는 효과가 발생하기 때문입니다.

확률 분포에 어떤 상수 a를 곱한다는 의미는 무엇일까요? 아래는 1.5를 곱한 결과와 0.8을 곱한 결과입니다.

레버리지로 투자하는 경우와 일부만 투자하는 경우
레버리지로 투자하는 경우와 일부만 투자하는 경우

S&P 500 TR × 1.5는 총투자금의 50%를 빌려 150%로 투자한 결과로 볼  수 있습니다. S&P 500 TR × 0.8은 80%만으로 투자한 결과라고 상상할 수 있습니다.

80%만 투자한다면 나머지 20%는 예금으로 둘 것입니다. 총 투자금 대비 1%의 이자가 발생합니다. X × 80% + 1%가 됩니다.

80%를 투자하고 나머지는 5% 금리 예금에 두는 경우
80%를 투자하고 나머지는 5% 금리 예금에 두는 경우

투자에서 확률 분포에 대한 연산의 의미 (두 확률 분포를 더하기)

두 확률 분포를 더한다는 뜻은 무엇일까요? 분산 투자를 한다는 의미가 됩니다. 또는 철수네 반이 계속해서 직업 탐방을 가듯 여러 번 연속해서 투자한다고 볼 수도 있습니다. 참고: 복리로 연속해서 투자하는 경우는 로그 연산을 사용해야 합니다.

앞서 이항 분포는 서로 독립이라도 확률 분포가 다르면 더하는 연산에 대해 닫혀있지 않습니다. 자산 A는 수익이 발생할 가능성이 70%이고, 자산 B는 60%라면 둘 다 이항 분포라도, 분산 투자한 결과는 더 이상 이항 분포가 아닙니다.

더할 두 확률 분포가 서로 독립이기만 하면, 더하기에 대해 닫혀 있는 확률 분포 형태도 있습니다. 대표적인 예가 정규 분포나 포아송 분포입니다.

아래는 S&P 500 지수를 추종하는 SPY와 미국 장기 국채에 투자하는 TLT의 1년 수익률 분포입니다. 반반 투자하는 SPY + TLT도 함께 나타냈습니다. 참고: 확률 분포 관점에서는 SPY × 50% + TLT × 50%로 쓰는 것이 더 적절할 수 있습니다.

SPY, TLT, SPY+TLT의 1년 수익률 분포SPY, TLT, SPY+TLT의 1년 수익률 분포 (확대)
SPY, TLT, SPY+TLT의 1년 수익률 분포

SPY와 TLT는 약간의 음의 상관성이 있습니다. 이 때문에 두 자산을 혼합하면 확률 분포가 조금 더 가운데로 집중되는 현상이 발생합니다. 초록색 선의 중앙부와 양 끝단을 확인해 보면, 이를 확인할 수 있습니다.

오른쪽 그래프는 수익이 발생한 경우의 일부를 확대한 것입니다. SPY와 TLT 모두 35% 이상 수익률을 얻은 경우가 있었습니다. 하지만, 두 자산을 반반씩 혼합하면 그런 상황이 사라집니다. 어느 하나의 수익률이 높아지면, 다른 하나의 수익률은 낮아지는 음의 상관성이 있었기 때문입니다.

이러한 형태로 분포를 뭐라고 부르면 좋을까요? 통계학적으로 잘 정의된 분포 중에 이미 존재할까요?

그나마 비슷한 게 정규 분포입니다. 정규 분포는 연속된 값에 대한 확률(엄밀하게는 확률 밀도)을 나타냅니다. 투자 수익률도 연속된 값이니 이항 분포보다 실용적입니다.

사실 SPY, TLT, SPY + TLT의 수익률 분포는 정규 분포와는 좀 다릅니다. 아래는 비교의 편의를 위해 SPY는 왼쪽으로, SPY + TLT는 오른쪽으로 이동시켜 정규 분포와 비교한 그래프입니다.

SPY, TLT, SPY+TLT의 1년 수익률 분포와 대응되는 정규 분포
SPY, TLT, SPY+TLT의 1년 수익률 분포와 대응되는 정규 분포

얼핏 보기에 세 경우 모두 실제 분포는 가운데가 좀 더 뾰족하고 양 끝단이 모델보다 두텁습니다(fat tail). 이를 감안하고 보면 괜찮아 보이기도 합니다.

모양이 좀 다르긴 하지만, 대충 비슷하다고 보자는(우기는) 것입니다. 정규 분포만큼 현실과 그나마 비슷하면서, 논리 전개가 편리하며 간결한 확률 분포가 없기 때문입니다.

아래는 SPY와 TLT의 확률 분포가 서로 독립인 경우 기대할 수 있는 정규 분포를 함께 나타낸 것입니다.

SPY, TLT, SPY+TLT의 1년 수익률 분포와 대응되는 정규 분포, 독립인 경우의 정규 분포
SPY, TLT, SPY+TLT의 1년 수익률 분포와 대응되는 정규 분포, 독립인 경우의 정규 분포

두 정규 분포가 서로 독립이라면, 두 정규 분포의 합(엄밀하게는 두 정규 분포를 따르는 확률 변수의 합) 역시 정규 분포가 됩니다. 그래프에서 빨간색 선이 독립일 경우의 정규 분포입니다. 초록색 실제 분포는 물론, 이를 모델링한 초록색 정규 분포와도 꽤 차이가 있습니다.

참고: 독립을 가정했을 때 예상한 두 정규 분포의 합(빨간색 정규 분포)과 관찰된 결과에서 도출한 정규 분포(초록색 정규 분포)의 차이는 공분산(covariance)으로 설명할 수 있습니다.

정리하며

대략 이런 것입니다.

  • 통계학적 분석을 위해 투자 수익률의 분포를 그려보자.
  • 좀 달라 보이긴 하지만 정규 분포라고 우겨보자. 다른 만족스러운 대안이 없다. 만일 발견하면 노벨 경제학상을 받을 수도 있다.
  • 정규 분포는 연속적인 값에 대한 확률 밀도를 나타내니 수익률에 대한 모델로 괜찮은 듯하다. (참고: 로그 정규 분포를 사용하는 게 합리적입니다.)
  • 정규 분포를 포함한 확률 분포는 상수 더하기와 상수 곱하기에 대해 닫혀 있다.
  • 정규 분포는 서로 독립인 두 정규 분포의 더하기에 대해 닫혀 있다.
  • 현실의 두 자산 간 수익률은 상관성이 있다. (서로 독립이 아니다.)
  • 현실의 두 자산에 분산 투자하거나, 한 자산에 연달아 투자하는 것은 정규 분포를 더하는 것으로 간주할 수 있다.
  • 하지만 그 결과는 독립이라 가정했을 때의 정규 분포와 좀 다른 수익률 분포가 나온다.
  • 독립을 가정했을 때의 예상 결과와 다르지만, 그 결과 역시 정규 분포처럼 보인다고 우겨보자.
  • 그러니 더하기에 대해 닫혀있다고 믿고 쓰면, 마음이 편하다.

다소 억지가 있지만, 정규 분포로 수익률을 모델링하는 이유입니다. 논리 전개에 편리한 모델을 얻었으니 어떤 상상을 했거나 아이디어를 얻었다면, 이전보다 좀 더 간편하게 그 결과를 추정해 볼 수 있습니다. 예를 들어, 장기 수익률이 기대 수익률에 수렴할 때, 변동성이 어느 정도 영향을 주는지 추측해 볼 수 있습니다.

이어지는 글: 투자 성과 분석의 초급 - 5. 정규 분포의 성질과 투자에서의 활용 예

함께 읽으면 좋은 글:

도움이 되었다면, 이 글을 친구와 공유하는 건 어떻까요?

facebook twitter kakaoTalk naver band