일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- EDA
- 프롬프트
- data
- 트위먼의법칙
- productanalysis
- 야구
- retentioneering
- 벅슨의역설
- n8n
- 인과추론
- data-analysis
- 아하모먼트
- 시각화
- 프롬프트엔지니어링
- pandasai
- PyGWalker
- 성장
- DataAnalyst
- 신기효과
- 전환분석
- 데이터분석가
- 데이터분석
- 글또
- 데이터디스커버리플랫폼
- gapminder
- 주가데이터
- DataAnalysis
- aha-moment
- 데이터
- 분석한스푼
데이터 생존 로그
데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지! 본문
첫 데이터 분석가로 입사했을 때 나의 꿈은 '이 조직에서 몰랐던 엄청난 사실을 발견해서 알려줘야지!'였다.
그리고 모든 데이터 분석가가 저 정도는 할 줄 알았다.
데이터 분석가로 일하게 된지 1년 반 정도가 지난 지금, 저 꿈이 누구나 할 수 있는 쉬운 일이라고 생각하지 않는다.
인사이트(라고 말하기엔 거창하긴 하지만..)로 가는 길은 멀고 험난하며,
그 길 도중엔 데이터 분석가를 홀리기 쉬운 여러가지 함정들이 도사리고 있기 때문!
그래서 이번 게시글에선 데이터 분석가가 빠지기 쉬운 함정 세 가지에 대해 다뤄보고자 한다.
개인적으로 많이 당할뻔(?)했던 함정 세 가지를 차례대로 담아보았다!
트위먼의 법칙(Twyman's Law)
데이터가 특이하거나 흥미로울수록, 특정 오류로 인한 결과일 가능성이 높다.
영국의 미디어 및 시장 조사원인 트위먼의 이름을 따서 만든 법칙이라고 한다.
데이터 분석가로 일하면서 가장 많이 마주치는 함정이라고 체감한다.
1주일에 한 번씩은 꼭 마주치는 것 같으며, 데이터 인프라가 잘 갖춰져있지 않은 회사일수록 마주칠 확률이 높다고 생각한다!
예를 들어, 이번 주 회원가입이 전 주 대비 80%가 빠졌다고 가정해보자.
이 결과를 가지고, '아! 요즘 시장이 안좋으니, 관련 근거를 더 찾아봐야겠구나!'와 같은 흐름으로 분석을 이어나가야할까?
아마 대부분의 분석가는 '아.. 이번엔 또 어디서 에러난거야..' 내지는 '어제 데이터 집계가 잘 안돌았나?'부터 의심할 것이다!
즉, 데이터의 다이나믹한 변화가 관찰된다면 그건 오류로 인한 결과로 이어지기 쉽다.
그렇다고 해서 이걸 찾아낸게 유의미하지 않은 것은 아니다.
오히려 가장 먼저 발견했다면, 어떠한 인사이트보다 큰 임팩트를 조직에 선사할 수 있다고 생각한다!
위 예시에서 회원가입의 80% 하락을 조직 내에서 가장 먼저 찾아냈고,
그 원인이 특정 개발 상 오류임을 밝혀냈다면 좋은 영향을 미친 것이니까!
칼 세이먼은 "특별한 주장에는 특별한 증거가 필요하다"라고 말했다.
이는, '흥미로운 데이터가 관찰되었다면 다시 한 번 깊게 살펴봐야 한다'는 트위먼의 법칙과 연관된 이야기가 아닐까?
신기 효과(Novelty Effect)
어떤 활동이나 행동에 새로운 요소가 도입되었을 때, 나타나는 현상
신기 효과는 다음과 같은 이미지로 쉽게 이해할 수 있다.
test group은 새로운 효과를 적용시킨 집단, control group은 이전 효과를 그대로 유지시킨 집단이다.
두 집단은 week2까지 큰 차이를 보이다가, week3부터 비슷한 형태로 맞춰진다.
새로운 효과를 적용시킨 집단이 week2까지 큰 전환율(conversion rate)를 보이다가 원래 형태로 돌아온 것으로 해석할 수 있다.
(어떻게 보면 변화에 학습하여 다시 돌아온 것으로도 볼 수 있겠다.)
즉, 신기 효과는 어떠한 변화로 인해 초기에는 전환율의 큰 상승을 만들어냈지만,
얼마 가지 못해 (전환율이) 원래의 크기로 돌아오는 것으로 이해할 수 있다!
따라서 신기 효과는 긴 호흡으로 관찰하고, 처음으로 변화를 인지한 사용자와 그렇지 않은 사용자 간의 차이를 확인한다면 충분히 가려낼 수 있는 현상이라고 생각한다!
심슨의 역설(Simpson's Paradox)
심슨의 역설은 이미 데이터 분석가들에게 널리 알려진 내용으로 알고있다.
내용부터 위 그림과 함께 살펴보자!
- 호머(아빠 심슨)의 기울기를 나타내면 좌측 상단에서 우측 하단으로 향하는 것으로 이해할 수 있다.
- 바트(아들 심슨)과 리사(딸 심슨), 마지(엄마 심슨)의 경우도 동일하다!
- 단, y 절편이 조금씩 다를 수 있다
- 그렇지만, 심슨 가족 전체의 기울기는 좌측 하단에서 우측 상단으로 향하는 것으로 보인다!
이렇듯, 심슨의 역설은 각 집단의 집계 결과와 전체 집단의 집계 결과가 일치하지 않음(정 반대일 수 있음)을 의미한다.
정리
이번 게시글에서는 '데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지'에 대해 다루어보았다.
경험 상, 실무에서는 [트위먼의 법칙 > 신기 효과 > 심슨의 역설] 순으로 자주 만나는 것 같다.
이러한 함정들은 데이터 분석가의 소중한 업무 시간과 노력을 삽질로 만들어낼 수 있으니 유의해서 잘 피해가도록 해야지!
'통계💡' 카테고리의 다른 글
⚖️ 성향 점수 매칭(PSM): 동등하지 않은 비교는 비교가 아니다! (0) | 2025.01.19 |
---|---|
🌟 데이터 분석가가 회귀 분석으로 할 수 있는 4가지② - 변수 선택과 비선형 패턴 찾기 (0) | 2024.12.22 |
🌟 데이터 분석가가 회귀 분석으로 할 수 있는 4가지① - 예측과 요인 분석 (0) | 2024.11.24 |
0. 벅슨의 역설: 가짜 상관성에 속아선 안돼! (0) | 2023.11.08 |