주식투자

투자 성과 분석의 초급 - 5. 정규 분포의 성질과 투자에서의 활용 예

오렌지사과키위 2024. 11. 2. 14:52

수학 2교시 수업입니다. 솔솔 잠이 올 수 있지만 통계학은 알아두면 실생활에 요긴합니다. 이전 글에서 불확실성이 있는 수익률을 모델링하는데 정규 분포를 자주 사용한다고 설명하였습니다. 현실의 수익률 분포는 정규 분포와 어느 정도 비슷한 점이 있으며, 서로 독립(independence)을 가정하면 정규 분포의 합도 정규 분포가 되어 편리하기 때문입니다. 이러한 성질은 분산 투자나 반복 투자를 모델링하기에 간편하면서 편리합니다. 이전 글: 투자 성과 분석의 초급 - 4. 왜 수익률 모델로 정규 분포를 사용할까?

정규 분포는 단 두 개의 숫자로 표현할 수 있습니다. 평균표준 편차(또는 분산)입니다. 평균은 말 그대로 값들의 평균입니다. 표준 편차는 값들의 분포가 퍼진 정도입니다.

표준 편차에 대한 이야기는 항상 들을 때는 알겠는데, 나중에는 잘 기억이 나지 않습니다. 마치 1타 강사의 학원 강의를 들을 때에는 "내가 이렇게 똑똑하다니"라며 스스로 감탄하지만, 1주일만 지나면 "역시 난 아니구나"라고 느끼는 것과 비슷합니다.

이는 표준 편차를 수식 위주로 이해했기 때문입니다. 수식을 보면 표준 편차를 어떻게 계산하는지 알 수 있지만, 무슨 의미인지 충분히 이해하지 못했기 때문입니다. 대개의 이론은 용도를 알지 못한 상황에서 배우려고 하면 쉽게 이해되지 않습니다.

정규 분포의 핵심은 표준 편차입니다. 표준 편차가 어떤 의미를 가지는지만 이해해도 실용적으로 충분합니다. 정규 분포에 대해 알아봅니다.

주의: 이 글은 특정 상품 또는 특정 전략에 대한 추천의 의도가 없습니다. 이 글에서 제시하는 수치는 과거에 그랬다는 기록이지, 앞으로도 그럴 거라는 예상이 아닙니다. 분석 대상, 기간, 방법에 따라 전혀 다른 결과가 나올 수 있습니다. 데이터 수집, 가공, 해석 단계에서 의도하지 않은 오류가 있을 수 있습니다. 일부 설명은 편의상 현재형으로 기술하지만, 데이터 분석에 대한 설명은 모두 과거형으로 이해해야 합니다.

정규 분포에서 표준 편차의 영향

아래는 평균은 10%로 동일하지만, 표준 편차는 각각 10%, 20%, 30%인 세 정규 분포를 나타낸 그래프입니다. 평균 10%는 대략적으로 주식의 장기 평균 수익률과 비슷합니다.

평균이 10%이며, 표준 편차가 10%, 20%, 30%인 정규 분포
평균이 10%이며, 표준 편차가 10%, 20%, 30%인 정규 분포

표준 편차가 커지면 정규 분포의 높이가 낮아지면서 옆으로 퍼집니다. 예금과 같이 고정된 금리를 주는 자산은 수익률이 일정하기에 표준 편차가 0인 정규 분포나 상수(constant)로 간주할 수 있습니다.

분포가 퍼진다는 것은 무엇을 의미할까요? 어떤 수익률을 얻을지 더 불확실하다는 뜻입니다. 수익률 분포가 가운데에 모여 있는 파란색 선을 보면 대충 수익률이 [-10%, 30%] 구간 내에 있을 거라 짐작할 수 있습니다. 조금 더 보수적으로 본다면, 웬만하면 [-20%, 40%] 구간일 거라 예상할 수 있습니다.

많이 퍼진 초록색 선은 수익이 날 듯 하기는 하지만, 잘 모르겠다는 느낌도 듭니다. 표준 편차는 평균을 중심으로 불확실한 정도를 나타내는 수치라 볼 수 있습니다.

표준 편차를 계산하는 수식은 몰라도 됩니다. 계산 방식이 필요하면 찾아보면 되고, 스프레드 시트나 프로그래밍 언어는 표준 편차를 계산하는 함수를 제공하기 때문입니다. 하지만 그 의미는 알고 있어야 합니다.

정규 분포에서 표준 편차와 확률

정규 분포는 형태는 아래와 같습니다.

정규 분포 그래프
저정규 분포 그래프

확률 분포 그래프에서 확률을 나타내는 선 아래 영역의 넓이는 항상 1입니다. 투자를 하면 발생 가능한 수익률 사건 중 하나가 일어나야 합니다. 그러므로 모든 가능한 사건의 발생 확률을 합하면 1이 됩니다. 영역의 넓이가 1이 되는 이유입니다.

정규 분포는 평균과 표준 편차를 이용하여 N(µ, σ²)로 나타냅니다. N의 정규 분포(Normal distribution)의 약자입니다. µ(뮤)가 평균이고, σ(시그마)가 표준 편차입니다. σ²은 분산(variance)이라 합니다. 위 그래프의 정규 분포는 평균이 10%이고, 표준 편차는 20%입니다.

정규 분포는 좌우 대칭입니다. 따라서 평균을 중심으로 왼쪽과 오른쪽 모양이 같으며, 한쪽 영역의 넓이는 0.5가 됩니다.

정규 분포는 왼쪽 또는 오른쪽으로 계속 가더라도 0으로 수렴할 뿐 0이 되지 않습니다. 하지만 값이 빨리 줄어들기에 어느 정도 이상이거나 이하이면 0으로 간주해도 큰 무리가 없습니다. 참고: 수익률은 손익 비대칭성이 있기에 정규 분포가 아닌 로그 정규 분포를 사용합니다. 로그 정규 분포에서는 수익률이 -100% 이하인 사건이 발생하지 않습니다.

평균에 대해 표준 편차를 가감하여 구간을 구하면 해당 구간의 대략적인 확률을 추정할 수 있습니다.

정규 분포 그래프 (1σ 구간)정규 분포 그래프 (2σ 구간)
정규 분포 그래프 (1σ, 2σ 구간)

왼쪽은 평균 ± 1 표준 편차 구간입니다. 평균이 10%이고 표준 편차가 20%이니 [10% ± 20%] = [10% - 20%, 10% + 20%] = [-10%, 30%]인 구간입니다. 이 구간의 넓이 즉 확률은 약 0.68 = 68%입니다. 좌우 대칭이니 오른쪽 절반인 수익률이 [10%, 30%] 구간에 속할 확률도 추정할 수 있습니다. 68% / 2 = 34%입니다.

오른쪽은 평균 ± 2 표준 편차 구간입니다. [10% - 20% × 2, 10% + 20% × 2] = [-30%, 50%] 구간이며, 확률은 약 0.95 = 95%입니다. 마찬가지로 평균 ± 3 표준 편차 구간은 [-50%, 70%]가 되며 확률은 약 99.7%입니다. 참고: 68-95-99.7 규칙 [위키백과]

정규 분포의 연산

정규 분포는 N(µσ²)로 나타냅니다. 상수 b를 더하면 어떻게 될까요? 수익률 분포를 나타낸 것이니, 상수 b는 인플레이션이나 대출 이자율을 의미할 수 있습니다.

이전 글에서 살펴본 바와 같이 확률 분포에 상수를 더하면 형태는 그대로이고 x축에서 위치만 이동합니다. 아래와 같이 평균만 변하는 수식으로 나타낼 수 있습니다. 이전 글: 투자 성과 분석의 초급 - 4. 왜 수익률 모델로 정규 분포를 사용할까?

N(µσ²) + b = N(µ + bσ²)

상수 a를 곱하면 어떻게 될까요? 상수 a는 레버리지로 투자하거나, 투자금 중 일부만 사용하는 것을 의미할 수 있습니다. 평균도 변하고 퍼진 정도도 변합니다. 아래와 같은 수식으로 표현됩니다.

N(µσ²) × a = N(, a²σ²)

평균은 a배 표준 편차는 |a|배 증가합니다. 참고: a가 마이너스면 공매도로 간주할 수 있습니다.

정규 분포의 가장 중요한 연산의 하나는 두 정규 분포의 더하기입니다. 두 정규 분포가 서로 독립이라면 그 합도 정규 분포가 됩니다. 수익률 분포라면 분산 투자나 연속된 투자를 의미할 수 있습니다. 아래와 같은 수식으로 표현됩니다.

N(µ₁, σ₁²) + N(µ₂, σ₂²) = N(µ₁ + µ₂, σ₁² + σ₂²)

평균과 분산 모두 두 정규 분포의 합이 됩니다. 표준 편차는 분산의 양의 제급근이니 √(σ₁² + σ₂²)이 됩니다.

정규 분포의 활용

짧은 시간이지만 정규 분포에 대해 실용적인 부분은 대부분 배웠습니다. 계산은 컴퓨터가 알아서 해 줍니다. 아래는 마이크로소프트 코파일럿에 질문한 결과입니다.

정규 분포에서 구간 확률을 물어보기두 정규 분포 더한 결과를 물어보기
마이크로소프트 코파일럿에 물어본 정규 분포 계산을 물어본 결과

왼쪽에는 구간에 대한 확률을 물어본 결과이고, 오른쪽은 두 정규 분포의 합에 대한 답변입니다. 수식으로 알려달라고 하면 어떻게 계산하는지 그 과정까지 보여줍니다. 참고: 질문 작성 시 평균이나 표준 편차를 % 기호로 표시하면 잘못된 결과가 나오는 경우가 있는 듯합니다. 가능하면 오른쪽처럼 수치로 기입하는 것이 좋을 듯합니다.

좀 더 복잡한 질문도 가능합니다.

10년 투자 결과에 대한 질문
10년 투자 결과에 대한 질문

왼쪽은 평균 수익률이 10%이고, 표준 편차가 20%인 자산에 10년 투자했을 때, 원금 손실이 발생할 확률과 은행 예금보다 낮은 수익률(3% ×10년 = 30%)을 얻을 확률을 물어본 것입니다. 각각 5.7%와 13.4%라고 합니다. 참고: 수익률이 정규 분포를 따르며, 매년 수익률은 독립적이라 가정한 경우입니다. 또한 단리를 가정하였습니다. 현실과 다소 차이가 있을 수 있습니다.

오른쪽은 S&P 500 지수를 정규 분포로 가정하고 10년 투자로 원금 손실 가능성을 물어본 결과입니다.

비슷한 질문에 대해 어떻게 전개하였는지 수식으로 알려달라고 하면 아래와 같이 설명해 줍니다.

S&P 500 10년 수익률에 대한 정규 분포 모델과 추정 결과
S&P 500 10년 수익률에 대한 정규 분포 모델과 추정 결과

아주 깔끔합니다. 설명에 있는 Z는 표준 정규 분포를 말합니다. 고등학교 때 이 부분을 공부했다면 지긋지긋할 수도 있습니다. 표준 정규 분포는 그런 게 있구나 정도만 알면 됩니다.

표준 정규 분포의 실용적 목적의 하나는 정규 분포의 구간에 대한 확률값이나, 확률에 대한 구간을 컴퓨터가 아니라 표에서 직접 찾기 위함입니다. 모든 가능한 평균과 표준 편차에 대해 확률 분포표로 미리 만들어 둘 수 없습니다. 평균과 표준 편차를 표준화해서 표 하나로 해결하기 위한 방법이 표준 정규 분포입니다.

정리하며

수익률 모델로 많이 활용하는 정규 분포의 특징과 활용 사례를 살펴보았습니다. 정규 분포는 표준 편차의 의미를 이해하는 것이 핵심입니다. 계산하는 수식은 몰라도 별 문제가 없습니다.

N(8%, 12%^2)이라는 정규 분포가 주어지면, 평균 수익률은 8%이며, 수익률은 95% 확률로 [8% ± 12% × 2] = [8% - 24%, 8% + 24%]  = [-16%, 32%] 구간에 속할 거라 추정할 수 있습니다.

대략적으로 현실적인 최대 손실률은 -16%이고(이보다 더 큰 손실이 발생할 가능성은 2.5% 이하입니다.), 최대 수익률은 32%라고 추측할 수 있습니다. 평균 수익률은 8% 정도를 기대하지만, -16% 정도의 손실도 염두에 두어야 한다고 볼 수도 있습니다.

수익률을 정규 분포로 간주하면 각종 연산이 편리해집니다. 인플레이션도 반영할 수 있고, 투자 비중을 줄였을 때의 결과를 계산해 볼 수 있습니다. 현실과 다소 차이가 있지만, 정규 분포 간 독립을 가정하면 분산 투자나 다년 투자 결과도 추정해 볼 수 있습니다.

의미를 이해했다면 이제는 이런 계산을 직접 할 필요는 없습니다. 우리에겐 귀한 시간을 아껴주는 인공지능 서비스가 있기 때문입니다.

이어지는 글: 투자 성과 분석의 초급 - 6. 정규 분포로 보는 큰 수의 법칙 (S&P 500 지수의 수익률 분포는 정규 분포와 유사할까?)

함께 읽으면 좋은 글:

도움이 되었다면, 이 글을 친구와 공유하는 건 어떻까요?

facebook twitter kakaoTalk naver band