데이터 생존 로그

데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지! 본문

통계💡

데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지!

분석가 베어그릴스 2024. 3. 31. 14:01

첫 데이터 분석가로 입사했을 때 나의 꿈은 '이 조직에서 몰랐던 엄청난 사실을 발견해서 알려줘야지!'였다.

그리고 모든 데이터 분석가가 저 정도는 할 줄 알았다.

 

데이터 분석가로 일하게 된지 1년 반 정도가 지난 지금, 저 꿈이 누구나 할 수 있는 쉬운 일이라고 생각하지 않는다.

인사이트(라고 말하기엔 거창하긴 하지만..)로 가는 길은 멀고 험난하며,

그 길 도중엔 데이터 분석가를 홀리기 쉬운 여러가지 함정들이 도사리고 있기 때문!

 

그래서 이번 게시글에선 데이터 분석가가 빠지기 쉬운 함정 세 가지에 대해 다뤄보고자 한다.

개인적으로 많이 당할뻔(?)했던 함정 세 가지를 차례대로 담아보았다!


트위먼의 법칙(Twyman's Law)

데이터가 특이하거나 흥미로울수록, 특정 오류로 인한 결과일 가능성이 높다.

 

영국의 미디어 및 시장 조사원인 트위먼의 이름을 따서 만든 법칙이라고 한다.

출처: https://www.goodmarketing.club/guide/analysts-mantra-twymans-law/

 

데이터 분석가로 일하면서 가장 많이 마주치는 함정이라고 체감한다.

1주일에 한 번씩은 꼭 마주치는 것 같으며, 데이터 인프라가 잘 갖춰져있지 않은 회사일수록 마주칠 확률이 높다고 생각한다!

 

예를 들어, 이번 주 회원가입이 전 주 대비 80%가 빠졌다고 가정해보자.

이 결과를 가지고, '아! 요즘 시장이 안좋으니, 관련 근거를 더 찾아봐야겠구나!'와 같은 흐름으로 분석을 이어나가야할까?

 

아마 대부분의 분석가는 '아.. 이번엔 또 어디서 에러난거야..' 내지는 '어제 데이터 집계가 잘 안돌았나?'부터 의심할 것이다!

 

즉, 데이터의 다이나믹한 변화가 관찰된다면 그건 오류로 인한 결과로 이어지기 쉽다.

 

그렇다고 해서 이걸 찾아낸게 유의미하지 않은 것은 아니다.

오히려 가장 먼저 발견했다면, 어떠한 인사이트보다 큰 임팩트를 조직에 선사할 수 있다고 생각한다!

위 예시에서 회원가입의 80% 하락을 조직 내에서 가장 먼저 찾아냈고,

그 원인이 특정 개발 상 오류임을 밝혀냈다면 좋은 영향을 미친 것이니까!

 

칼 세이먼은 "특별한 주장에는 특별한 증거가 필요하다"라고 말했다.

이는, '흥미로운 데이터가 관찰되었다면 다시 한 번 깊게 살펴봐야 한다'는 트위먼의 법칙과 연관된 이야기가 아닐까?


신기 효과(Novelty Effect)

어떤 활동이나 행동에 새로운 요소가 도입되었을 때, 나타나는 현상

 

신기 효과는 다음과 같은 이미지로 쉽게 이해할 수 있다.

출처: https://theaudiencers.com/operations/4-learnings-about-a-b-testing-after-5-years-working-on-paid-content-at-zeit-online/

 

test group은 새로운 효과를 적용시킨 집단, control group은 이전 효과를 그대로 유지시킨 집단이다.

두 집단은 week2까지 큰 차이를 보이다가, week3부터 비슷한 형태로 맞춰진다.

 

새로운 효과를 적용시킨 집단이 week2까지 큰 전환율(conversion rate)를 보이다가 원래 형태로 돌아온 것으로 해석할 수 있다.

(어떻게 보면 변화에 학습하여 다시 돌아온 것으로도 볼 수 있겠다.)

 

즉, 신기 효과는 어떠한 변화로 인해 초기에는 전환율의 큰 상승을 만들어냈지만,

얼마 가지 못해 (전환율이) 원래의 크기로 돌아오는 것으로 이해할 수 있다!

 

따라서 신기 효과는 긴 호흡으로 관찰하고, 처음으로 변화를 인지한 사용자와 그렇지 않은 사용자 간의 차이를 확인한다면 충분히 가려낼 수 있는 현상이라고 생각한다!


심슨의 역설(Simpson's Paradox)

출처: https://jollycontrarian.com/index.php?title=Simpson%E2%80%99s_paradox

 

심슨의 역설은 이미 데이터 분석가들에게 널리 알려진 내용으로 알고있다.

 

내용부터 위 그림과 함께 살펴보자!

  • 호머(아빠 심슨)의 기울기를 나타내면 좌측 상단에서 우측 하단으로 향하는 것으로 이해할 수 있다.
  • 바트(아들 심슨)과 리사(딸 심슨), 마지(엄마 심슨)의 경우도 동일하다!
    • 단, y 절편이 조금씩 다를 수 있다
  • 그렇지만, 심슨 가족 전체의 기울기는 좌측 하단에서 우측 상단으로 향하는 것으로 보인다!

 

이렇듯, 심슨의 역설은 각 집단의 집계 결과와 전체 집단의 집계 결과가 일치하지 않음(정 반대일 수 있음)을 의미한다.


정리

이번 게시글에서는 '데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지'에 대해 다루어보았다.

경험 상, 실무에서는 [트위먼의 법칙 > 신기 효과 > 심슨의 역설] 순으로 자주 만나는 것 같다.

 

이러한 함정들은 데이터 분석가의 소중한 업무 시간과 노력을 삽질로 만들어낼 수 있으니 유의해서 잘 피해가도록 해야지!

 

반응형

'통계💡' 카테고리의 다른 글

0. 벅슨의 역설: 가짜 상관성에 속아선 안돼!  (0) 2023.11.08
Comments