데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지!

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

관리 메뉴

데이터 생존 로그

데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지! 본문

통계💡

데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지!

분석가 베어그릴스 2024. 3. 31. 14:01

첫 데이터 분석가로 입사했을 때 나의 꿈은 '이 조직에서 몰랐던 엄청난 사실을 발견해서 알려줘야지!'였다.

그리고 모든 데이터 분석가가 저 정도는 할 줄 알았다.

데이터 분석가로 일하게 된지 1년 반 정도가 지난 지금, 저 꿈이 누구나 할 수 있는 쉬운 일이라고 생각하지 않는다.

인사이트(라고 말하기엔 거창하긴 하지만..)로 가는 길은 멀고 험난하며,

그 길 도중엔 데이터 분석가를 홀리기 쉬운 여러가지 함정들이 도사리고 있기 때문!

그래서 이번 게시글에선 데이터 분석가가 빠지기 쉬운 함정 세 가지에 대해 다뤄보고자 한다.

개인적으로 많이 당할뻔(?)했던 함정 세 가지를 차례대로 담아보았다!

트위먼의 법칙(Twyman's Law)

데이터가 특이하거나 흥미로울수록, 특정 오류로 인한 결과일 가능성이 높다.

영국의 미디어 및 시장 조사원인 트위먼의 이름을 따서 만든 법칙이라고 한다.

출처: https://www.goodmarketing.club/guide/analysts-mantra-twymans-law/

데이터 분석가로 일하면서 가장 많이 마주치는 함정이라고 체감한다.

1주일에 한 번씩은 꼭 마주치는 것 같으며, 데이터 인프라가 잘 갖춰져있지 않은 회사일수록 마주칠 확률이 높다고 생각한다!

예를 들어, 이번 주 회원가입이 전 주 대비 80%가 빠졌다고 가정해보자.

이 결과를 가지고, '아! 요즘 시장이 안좋으니, 관련 근거를 더 찾아봐야겠구나!'와 같은 흐름으로 분석을 이어나가야할까?

아마 대부분의 분석가는 '아.. 이번엔 또 어디서 에러난거야..' 내지는 '어제 데이터 집계가 잘 안돌았나?'부터 의심할 것이다!

즉, 데이터의 다이나믹한 변화가 관찰된다면 그건 오류로 인한 결과로 이어지기 쉽다.

그렇다고 해서 이걸 찾아낸게 유의미하지 않은 것은 아니다.

오히려 가장 먼저 발견했다면, 어떠한 인사이트보다 큰 임팩트를 조직에 선사할 수 있다고 생각한다!

위 예시에서 회원가입의 80% 하락을 조직 내에서 가장 먼저 찾아냈고,

그 원인이 특정 개발 상 오류임을 밝혀냈다면 좋은 영향을 미친 것이니까!

칼 세이먼은 "특별한 주장에는 특별한 증거가 필요하다"라고 말했다.

이는, '흥미로운 데이터가 관찰되었다면 다시 한 번 깊게 살펴봐야 한다'는 트위먼의 법칙과 연관된 이야기가 아닐까?

신기 효과(Novelty Effect)

어떤 활동이나 행동에 새로운 요소가 도입되었을 때, 나타나는 현상

신기 효과는 다음과 같은 이미지로 쉽게 이해할 수 있다.

출처: https://theaudiencers.com/operations/4-learnings-about-a-b-testing-after-5-years-working-on-paid-content-at-zeit-online/

test group은 새로운 효과를 적용시킨 집단, control group은 이전 효과를 그대로 유지시킨 집단이다.

두 집단은 week2까지 큰 차이를 보이다가, week3부터 비슷한 형태로 맞춰진다.

새로운 효과를 적용시킨 집단이 week2까지 큰 전환율(conversion rate)를 보이다가 원래 형태로 돌아온 것으로 해석할 수 있다.

(어떻게 보면 변화에 학습하여 다시 돌아온 것으로도 볼 수 있겠다.)

즉, 신기 효과는 어떠한 변화로 인해 초기에는 전환율의 큰 상승을 만들어냈지만,

얼마 가지 못해 (전환율이) 원래의 크기로 돌아오는 것으로 이해할 수 있다!

따라서 신기 효과는 긴 호흡으로 관찰하고, 처음으로 변화를 인지한 사용자와 그렇지 않은 사용자 간의 차이를 확인한다면 충분히 가려낼 수 있는 현상이라고 생각한다!

심슨의 역설(Simpson's Paradox)

출처: https://jollycontrarian.com/index.php?title=Simpson%E2%80%99s_paradox

심슨의 역설은 이미 데이터 분석가들에게 널리 알려진 내용으로 알고있다.

내용부터 위 그림과 함께 살펴보자!

호머(아빠 심슨)의 기울기를 나타내면 좌측 상단에서 우측 하단으로 향하는 것으로 이해할 수 있다.
바트(아들 심슨)과 리사(딸 심슨), 마지(엄마 심슨)의 경우도 동일하다!
- 단, y 절편이 조금씩 다를 수 있다
그렇지만, 심슨 가족 전체의 기울기는 좌측 하단에서 우측 상단으로 향하는 것으로 보인다!

이렇듯, 심슨의 역설은 각 집단의 집계 결과와 전체 집단의 집계 결과가 일치하지 않음(정 반대일 수 있음)을 의미한다.

정리

이번 게시글에서는 '데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지'에 대해 다루어보았다.

경험 상, 실무에서는 [트위먼의 법칙 > 신기 효과 > 심슨의 역설] 순으로 자주 만나는 것 같다.

이러한 함정들은 데이터 분석가의 소중한 업무 시간과 노력을 삽질로 만들어낼 수 있으니 유의해서 잘 피해가도록 해야지!

'통계💡' 카테고리의 다른 글

⚖️ 성향 점수 매칭(PSM): 동등하지 않은 비교는 비교가 아니다! (0)	2025.01.19
🌟 데이터 분석가가 회귀 분석으로 할 수 있는 4가지② - 변수 선택과 비선형 패턴 찾기 (0)	2024.12.22
🌟 데이터 분석가가 회귀 분석으로 할 수 있는 4가지① - 예측과 요인 분석 (0)	2024.11.24
0. 벅슨의 역설: 가짜 상관성에 속아선 안돼! (0)	2023.11.08

'통계💡' Related Articles

Comments

데이터 생존 로그

데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지! 본문

데이터 분석가라면 반드시 알아야할 데이터의 함정 세 가지!

트위먼의 법칙(Twyman's Law)

신기 효과(Novelty Effect)

심슨의 역설(Simpson's Paradox)

정리

'통계💡' 카테고리의 다른 글

티스토리툴바

신기 효과(Novelty Effect)