주식투자

상관관계와 인과관계의 혼동 (퀀트 투자에서 백테스트 함정의 예 #3, 레리 윌리엄스의 논리적 오류)

오렌지사과키위 2024. 4. 16. 15:17

인간의 사고는 합리적이지 않을 수 있습니다. 예를 들어, 특정 물건의 가치를 산정할 때, 해당 물건을 보유하고 있으면, 가격을 보다 높게 매기는 보유 효과와 같은 심리적 편향(bias)이 있습니다.

경제학 분야에서는 행동경제학이 심리적 편향에 대한 다양한 실험을 하고 이론을 제시합니다. 개인적으로는 이들 이론의 상당 부분은 인간의 생존 문제와 연계하여 생각한다면, 마냥 불합리하다고 생각하지는 않습니다. 참고: [뒤집어 보는 행동경제학] 확실한 이익과 불확실한 손실을 선호하는 이유는 무엇일까? (전망 이론에 대한 생각)

투자에서 심리적 편향은 합리적인 결정을 내리는데 방해가 되는 경우가 흔합니다. 심리적 편향은 자연스럽게 발현되기에, 어떠한 심리적 편향이 있고, 왜 문제가 될 수 있으며, 이를 효과적으로 제어하기 위해서는 어떻게 해야 할지 투자자는 인지하고 있어야 합니다.

인간의 개입을 최소화하고 데이터를 기반으로 투자 전략을 수립하는 퀀트 투자에서도 이러한 현상이 발생될 수 있습니다. 퀀트 투자(여기서는 데이터 분석을 포함) 자체가 심리적 편향을 만들지는 않습니다. 퀀트 투자로 도출된 결과를 해석할 때 발생합니다.

대표적인 해석 오류가 상관관계가 아닌 것을 상관관계로 파악하거나, 상관관계를 인과관계로 확대 해석하는 것입니다. 이 글에서는 상관관계를 인과관계로 잘못 해석하는 사례를 들어 봅니다.

상관관계와 인과관계

상관관계와 인과관계는 통계학 용어입니다. 두 사건(또는 변수) xy가 동시에 발생하거나, 동시에 발생하지 않는 빈도가 어느 한쪽만 발생하는 경우에 비해 높으면 상관관계가 있다고 볼 수 있습니다. 수치적으로 본다면, x가 증가할수록 y가 일관성 있게 증가하거나(양의 상관관계) 감소한다면(음의 상관관계) 상관관계가 있다고 볼 수 있습니다.

인과관계는 어느 한쪽이 원인이고 다른 한쪽이 결과인 상관관계입니다. 이를 확인하기 위해서는 원인이라고 추정되는 변수 x를 제어할 때, y에 기대하는 변화가 생기는지 확인해야 합니다.

투자에서 상관관계의 활용

신뢰성 높은 상관관계와 인과관계를 발견하면 투자에 활용할 수 있습니다.

어느 기업의 임원들이 자사주를 매입했습니다. 임원들은 아마도 자사의 주가 전망을 좋게 보기 때문에 매수했을 것입니다. 다른 투자자가 해당 종목을 매수하면 좋은 이유의 하나가 될 수 있습니다.

반대로 임원들이 자사주를 매도했다고 하겠습니다. 임원들이 뭔가 불안감을 느껴서 매도했을 수 있습니다. 다른 투자자가 해당 종목을 매도하는 게 나은 이유의 하나가 될 수 있습니다.

임원들의 자사주 매입과 주가 상승은 인과관계가 아닙니다. 이 두 가지는 상관관계입니다. 내부적으로 아래와 같은 인과관계가 있습니다.

  • 임원들의 주가 상승 예상 → 주가 상승
  • 임원들의 주가 상승 예상 → 임원들의 자사주 매입

임원들은 기업 내부 사정에 밝습니다. 기업의 이익이 증가하는 것을 외부인에 비해 좀 더 정확하게 예측할 수 있습니다. 그러니 임원들의 주가 상승 예상 → 주가 상승이라는 인과관계가 성립하게 되고, 주가 상승을 예상한 임원들은 자사주를 매입할 수 있습니다. (아래 참고에 있듯이, 이는 정확한 설명은 아닙니다)

임원들의 자사주 매입과 주가 상승은 이 두 가지 인과관계에 의해 간접적으로 맺어진 상관관계입니다. 임원들의 자사주 매입과 주가 상승 간에 상관관계가 성립하려면, 두 인과관계가 충분히 정확해야 합니다.

퀀트 투자 입장에서 보면, 임원들의 주가 상승 예상은 숨어있는 변수입니다. 데이터로 만들기가 까다롭습니다. 이에 비해 임원들의 자사주 매입과 주가 상승은 관찰이 가능하기에 데이터로 만들 수 있습니다.

시기상으로는 임원들의 자사주 매입이 주가 상승에 우선할 가능성이 높습니다. 그러니 퀀트 투자 전략을 세우게 되면, 임원들이 자사주 매입하면 향후 주가가 상승할 가능성이 높으니, 이를 투자에 활용하는 전략이 도출되게 됩니다.

하지만 이는 상관관계이지 인과관계가 아닙니다. 선후관계가 있어 마치 인과관계처럼 보이는 상관관계일 뿐입니다. 누군가 임원들에게 자사주를 매입하라고 지시하고, 임원들이 이를 따른다고 해서 주가가 상승할리 없기 때문입니다.

이전 글에서 소개한 비(예보), 우산, 비의 관계와 동일합니다. 비(예보)를 들은 사람들이 우산을 가지고 집을 나설 것입니다. 거리에 우산이 많이 보인다면, 일기예보를 듣지 않는 사람은 우산을 가지고 나가는 게 유리합니다. 하지만, 우산을 가지고 나갔기에 비가 내리는 것은 아닙니다. 참고: 우산이 많이 보이면 비가 올까? (상관관계와 인과관계, 그리고 화물 신앙)

퀀트 투자로 발견한 상관관계는 투자에 도움이 될 수 있습니다. 하지만 이를 인과관계로 해석하게 되면, 논리적이지 않은 결론에 도달할 수 있습니다.

참고: 임원들의 주가 상승 예상 → 주가 상승은 엄밀하게는 인과관계가 아닙니다. 보다 정확하게 묘사하면, 기업 이익 증가가 주가 상승과 임원들의 자사주 매입에 영향을 미치게 됩니다.

  • 기업 이익 증가 → 주가 상승
  • 기업 이익 증가 → 임원들의 기업 이익 증가 인식
  • 임원들의 기업 이익 증가 인식 임원들의 주가 상승 예상
  • 임원들의 주가 상승 예상 → 임원들의 자사주 매입

래리 윌리엄스의 변동성 돌파 전략

래리 윌리엄스장단기 투자의 비밀이라는 책에서 변동성 돌파 전략을 소개합니다. 래리 윌리엄스는 변동성 돌파 전략이 합리적이라는 근거로 아래 세 가지를 듭니다.

  • 추세가 존재한다.
  • 가격의 변동폭은 커졌다 작아졌다 한다.
  • 전체 변동폭 대비 저가 변동폭의 비중이 낮을수록 시가 대비 상승 마감할 확률이 높다.

이 세 가지 근거에 의해서 변동성이 커지면서 강하게 상승할 때 매수하는 것이 변동성 돌파 전략입니다. 상당히 그럴듯한 설명입니다.

래리 윌리엄스의 전략이 잘못되었다고 이야기하려는 것이 아닙니다. 제 경우에도 추세라는 것이 존재한다는 것을 인정하고, 이를 이용하여 매매합니다.

하지만, 전략에 효용이 있다는 것과 그 이유에 대한 설명이 합리적이라는 것은 다른 이야기입니다. 길거리에 우산이 많이 보이면 우산을 가지고 나가는 것은 합리적인 행동이지만, 거리에 우산이 많이 있기에 비가 내린다고 설명하는 것은 논리적이지 않습니다.

저가 변동폭이 작을수록 시가 대비 상승 마감할 가능성이 높은 이유

이 글에서는 세 번째 근거가 변동성 돌파 전략의 효용성을 설명하는 합리적인 이유가 될 수 있는지 살펴봅니다. 변동폭은 아래와 같이 정의됩니다.

  • 변동폭 = 고가 - 저가
  • 고가 변동폭 = 고가 - 시가
  • 저가 변동폭 = 시가 - 저가
  • 저가 변동폭 비율 = 저가 변동폭 /  변동폭

주식 시장에는 레리 윌리엄스가 말한 현상은 분명히 발견됩니다. 얼핏 생각하기에는 주가 흐름에 뭔가 특별한 성질이 있기 때문에 발생한 것이라고 생각할 수 있습니다.

이를 확인하기 위해서는 임의로 생성한 데이터와 비교해야 합니다. 임의로 생성한 데이터에는 이러한 현상이 발견되지 않아야 주식 시장만의 특별한 특성이 되고, 변동성 돌파의 합리적인 근거가 될 수 있습니다. 

아래와 같이 시가, 저가, 고가, 종가를 정의하면 임의로 생성한 데이터가 됩니다. 주가가 시가에서 시작하여 종가까지 임의로 움직입니다. 그 사이의 가장 높은 값이 고가가 되고, 가장 낮은 값이 저가가 됩니다. 

  • 시가는 1만원입니다.
  • 시가 + 임의의 값으로 중간가1을 생성합니다.
  • 중간가1 + 임의의 값으로 중간가2를 생성합니다.
  • 중간가2 + 임의의 값으로 종가를 생성합니다.
  • 고가는 max(시가, 중간가1, 중간가2, 종가)입니다.
  • 저가는 min(시가, 중간가1, 중간가2, 종가)입니다.

주가가 한 번에 -500 ~ 500원 사이에서 10원 단위로 임의로 변한다면 아래와 같은 주가 흐름 그래프를 만들 수 있습니다. 임의로 생성했지만 그럴싸한 주가 그래프처럼 보입니다.

 

아래는 임의로 생성한 100만개 데이터를 이용하여 저가 변동폭 비율에 따른 종가 상승 확률을 그래프로 나타낸 것입니다.

옅은 파란색으로 된 영역은 동일한 x값에 대한 상승 확률을 나타낸 것입니다. x값이 작을수록 상승 확률이 높고 x값이 클수록 상승 확률이 낮습니다.

그 경향을 보다 쉽게 파악하기 위해서 x의 범위에 따라 평균을 낸 것이 노란색 선입니다. x값이 [ 0, 5% ], [ 1%, 6% ], [ 2%, 7% ] 이렇게 5% 크기의 윈도를 옮겨가며 평균을 낸 것입니다. xy사이에 뚜렷한 음의 상관관계가 있음을 알 수 있습니다.

임의로 생성한 데이터에도 이러한 현상이 발견되었으니, 단순히 이런 현상이 있다고 해서 변동성 돌파 전략의 근거가 될 수 없습니다. 좀 더 면밀하게 살펴보려면, 합리적인 수준으로 임의 생성한 데이터와 비교하여, 그 특성이 더 강한지 통계적으로 분석해야 합니다.

제약 조건에 의해 생성된 상관관계

왜 이런 현상이 발생했을까요? 임의로 생성한 데이터임에도 특이한 성질이 만들어진 셈입니다. 이는 고가와 저가의 정의 때문입니다.

시가, 고가, 저가, 종가 중에서 고가가 가장 크고, 저가가 가장 작습니다. 시가와 종가는 고가와 종가 사이의 값입니다. 만일 고가가 많이 상승하고, 저가가 조금 상승한 상황에서 임의로 종가를 만들면 어떻게 될까요?

시가에서 고가는 300원 상승하고, 저가는 시가 대비 -100원 하락했다고 하겠습니다. 100원 단위로 끊으면, 종가는 시가 대비 -100원, 0원, 100원, 200원, 300원 중에 하나가 될 것입니다. 시가 대비 상승할 확률은 3 / 5 = 60%, 시가와 동일할 확률이 20%, 시가 대비 하락할 확률은 20%가 됩니다.

레리 윌리엄스가 근거로 제시한 세 번째 이유는 고가와 저가의 정의에 의해 자연스럽게 생성되는 상관관계인 것입니다. 그러니 추가적으로 면밀한 분석 결과의 뒷받침 없이는 변동성 돌파 전략의 근거가 된다고 말하기 어렵습니다.

정리하며

퀀트 투자는 과거 데이터에서 발견한 주가와 상관관계가 있는 피쳐(feature 또는 팩터; factor)를 투자에 활용합니다. 상관관계는 분명히 투자 성과를 높이는데 도움이 될 수 있는 정보입니다.

투자에 도움이 되는 피쳐(feature)는 주가보다 선행하기에, 마치 인과관계가 있는 것처럼 오해할 수 있습니다. 배당을 많이 주는 기업의 주가가 더 많이 오르는 경향이 있더라는 과거 사실은 인과관계가 아니라 상관관계입니다. 그 이면에는 기업의 이익 증대라는 두 변수에 영향을 주는 원인이 숨어 있습니다.

개발한 투자 전략의 효용의 근거를 설명하려다 보면, 투자 전략이 활용하는 상관관계를 인과관계로 해석하거나, 더 나아가 투자 전략과 관련 없는 특성을 투자 전략의 근거로 제시하는 논리적 오류를 만들 수 있습니다.

관련 정보

함께 읽으면 좋은 글:

도움이 되었다면, 이 글을 친구와 공유하는 건 어떻까요?

facebook twitter kakaoTalk naver band