데이터 생존 로그

0. 벅슨의 역설: 가짜 상관성에 속아선 안돼! 본문

통계💡

0. 벅슨의 역설: 가짜 상관성에 속아선 안돼!

분석가 베어그릴스 2023. 11. 8. 22:42
해당 게시글에서는 벅슨의 역설(Berkson's paradox)을 알기 쉽게 담았습니다.

 

상황 가정

  • 심슨은 아이스크림집 사장님이다.
  • 바닐라 아이스크림을 사면 초코 아이스크림을 50%에 살 수 있는 할인쿠폰을 기획하려고 한다.

데이터셋

데이터 기반으로 의사결정하는걸 좋아하는 심슨은
손님의 입맛을 파악하기 위해 초콜릿 아이스크림과 바닐라 아이스크림에 대한 선호도를 조사해놓았다.

 

또한 설문조사에 참여한 손님이 실제로 아이스크림을 구매해봤는지에 대한 데이터도 가지고 있다.

즉, 심슨이 가지고 있는 데이터셋은 다음과 같은 형태를 가지고 있다.

 

컬럼명 설명 타입
VanillaTaste 바닐라맛 아이스크림 선호도 정수형 (0~25)
ChocTaste 초콜릿맛 아이스크림 선호도 정수형 (0~25)
Shopped 아이스크림 구매 경험 여부 이진형 (0 or 1)

데이터로 의사결정 해보기

데이터 초보인 심슨은 다음과 같이 생각한다.

 

지금 데이터로 인과관계를 파악하긴 어려우니, 상관관계를 기반으로 판단해봐야겠다.
분석 대상은 '아이스크림 구매 경험이 있는 사람'으로 정해야겠다. 내가 기획하고자 하는 쿠폰은 아이스크림을 구매한 사람을 대상으로 해야하니까!
그러면 분석 대상에 대해서 바닐라맛 선호도랑 초콜릿맛 선호도의 상관관계를 찍어보면 되겠네?

 

 

그리고 다음과 같은 그림을 통해 위 아이디어를 검증해보고자 했다.

바닐라맛 선호도와 초콜릿맛 선호도의 상관관계

 

바닐라맛 선호도와 초콜릿맛 선호도의 상관관계는 -0.39였다.

즉, 꽤나 강한 음의 상관관계가 존재했다!

 

그럼 위 자료를 통해 다음과 같이 의사결정을 할 수 있다.

  • 아이스크림을 구매한 사람 중, 바닐라맛 아이스크림을 좋아하는 사람은 
  • 초콜릿맛 아이스크림을 좋아하지 않는다.
  • 따라서 바닐라맛 아이스크림을 구매한 사람에게 초콜릿맛 아이스크림 쿠폰을 줘도 의미가 없다!

벅슨의 역설 관점에서 다시 생각해보기

위 의사결정은 표면 상으로 봤을 때, 별 문제가 없어보인다.

하지만, 벅슨의 역설 관점에서 보면 치명적인 오류가 있다.

 

아래 그림을 보자

아이스크림 구매여부에 따른 바닐라맛(좌측)과 초콜릿맛(우측)의 선호도

 

구매를 한 경험이 있는 사람은 어떤 맛이던 선호도가 높다.

즉, 아이스크림을 구매한 적이 있다면 적어도 하나의 맛은 좋아한다는 의미다.

 

이를 다시 해석해보면,
아이스크림을 구매했고 바닐라 아이스크림을 좋아하지 않는 사람은 초콜릿 아이스크림을 좋아하는 경향이 숨어있다!

 

따라서 데이터 상에 나타나는 '음의 상관관계'는 구매로 인해 입맛이 변한 것이 아니다.

바닐라 맛 선호도와 초콜릿 맛 선호도를 모두 좋아하지 않은 사람을 분석 대상에서 제외했기 때문에 발생한 허위관계이다!


정리

위 현상은 '벅슨의 역설'이라 할 수 있다.

 

벅슨의 역설을 한 마디로 풀어보면

'전체 집단에서 특정 집단을 제거했을 때, 허위 관계가 관찰되는 것'으로 정리할 수 있다.

 

적절한 분석 대상을 선정했더라도 짤려나간 집단과 함께 올바른 경향성도 같이 없어지진 않는지 여러 번 확인해야한다!

 

 

 

참고자료: https://github.com/BuissonFlorent/BehavioralDataAnalysis/blob/master/Chapter%201%20-%20The%20causal-behavioral%20framework%20for%20data%20analysis/ch01.ipynb

 

반응형
Comments