일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 글또
- 트위먼의법칙
- DataAnalyst
- 데이터
- 시각화
- 데이터분석가
- 야구
- data-analysis
- gapminder
- 데이터디스커버리플랫폼
- DataAnalysis
- 주가데이터
- 성장
- 분석한스푼
- 프롬프트엔지니어링
- 아하모먼트
- EDA
- retentioneering
- n8n
- 신기효과
- 프롬프트
- pandasai
- data
- 벅슨의역설
- PyGWalker
- aha-moment
- 인과추론
- productanalysis
- 데이터분석
- 전환분석
목록통계💡 (5)
데이터 생존 로그
데이터를 해석하고 분석할 때, 가장 주의해야 하는 것이 편향이다.대부분의 데이터는 편향을 담고 있고, 이를 기반으로 단순 집계한 통계량에도 편향이 섞여있을 수 밖에 없다. 한 가지 예시를 들어보자!우리가 인스타그램의 데이터 분석가라고 가정해 보자.그리고 다음과 같은 분석 결과를 보게 되었다.릴스를 1회라도 올린 유저가 그렇지 않은 유저에 비해 팔로워 수가 더 많다.(통계적 유의)따라서 '릴스 업로드 유무'는 '팔로워 수'의 요인이라고 볼 수 있다. 우리는 위 분석 결과를 '통계적으로 유의'하기 때문에 받아들여야 할까? 당연히 아니다. 애초에 릴스를 1회라도 올린 유저는 다른 활동 역시 활발하게 할 확률이 높고(게시글, 댓글, 좋아요 등),이에 따라 팔로워 수가 높을 수도 있기 때문이다. 즉, '팔로워 ..

회귀 분석의 활용 방식 중, 변수 선택과 비선형 패턴에 대해 알아봅니다. 저번 게시글에서는 회귀 분석의 예측과 요인 분석에 대해 알아보았다.https://analyst-ggom-chi-kim.tistory.com/23 🌟 데이터 분석가가 회귀 분석으로 할 수 있는 4가지① - 예측과 요인 분석회귀 분석의 활용법을 4가지 관점에서 정리하고,장점과 한계점에 대해 알아봅니다. 처음 머신러닝을 배우면서 회귀 분석을 접했을 때는 이런 생각이 들었다."기초적이고 성능도 별로일 것 같은analyst-ggom-chi-kim.tistory.com 이번 게시글에서는 회귀 분석을 통한 변수 선택과 비선형 패턴에 대해 알아보자! 3. 변수 선택: 중요한 변수만 남겨라 🎯 데이터 분석에서 모든 변수가 중요한 것은 아니다. ..

회귀 분석의 활용법을 4가지 관점에서 정리하고,장점과 한계점에 대해 알아봅니다. 처음 머신러닝을 배우면서 회귀 분석을 접했을 때는 이런 생각이 들었다."기초적이고 성능도 별로일 것 같은데, 실무에서 과연 쓸 일이 있을까?" 하지만 통계를 배우고, 실무에서 데이터를 다뤄보니 회귀 분석은 단순한 예측 모델에 그치지 않고 다양한 활용 가능성을 가진 도구라는 걸 깨달았다.이번 포스팅에서는 회귀 분석의 활용 방법과 이를 통해 할 수 있는 네 가지 작업 중 두 가지를 먼저 정리해보았다. 바로 알아보자! 🚀1. 예측: 미래를 내다보는 도구 🔮회귀 분석의 가장 기본적인 활용은 예측이다.데이터를 기반으로 무언가를 예측하기에 가장 기초적인 도구로 사용할 수 있다. 하지만 더 깊게 다루진 않으려 한다!왜나하면, '데이터..

첫 데이터 분석가로 입사했을 때 나의 꿈은 '이 조직에서 몰랐던 엄청난 사실을 발견해서 알려줘야지!'였다. 그리고 모든 데이터 분석가가 저 정도는 할 줄 알았다. 데이터 분석가로 일하게 된지 1년 반 정도가 지난 지금, 저 꿈이 누구나 할 수 있는 쉬운 일이라고 생각하지 않는다. 인사이트(라고 말하기엔 거창하긴 하지만..)로 가는 길은 멀고 험난하며, 그 길 도중엔 데이터 분석가를 홀리기 쉬운 여러가지 함정들이 도사리고 있기 때문! 그래서 이번 게시글에선 데이터 분석가가 빠지기 쉬운 함정 세 가지에 대해 다뤄보고자 한다. 개인적으로 많이 당할뻔(?)했던 함정 세 가지를 차례대로 담아보았다! 트위먼의 법칙(Twyman's Law) 데이터가 특이하거나 흥미로울수록, 특정 오류로 인한 결과일 가능성이 높다. ..

해당 게시글에서는 벅슨의 역설(Berkson's paradox)을 알기 쉽게 담았습니다. 상황 가정 심슨은 아이스크림집 사장님이다. 바닐라 아이스크림을 사면 초코 아이스크림을 50%에 살 수 있는 할인쿠폰을 기획하려고 한다. 데이터셋 데이터 기반으로 의사결정하는걸 좋아하는 심슨은 손님의 입맛을 파악하기 위해 초콜릿 아이스크림과 바닐라 아이스크림에 대한 선호도를 조사해놓았다. 또한 설문조사에 참여한 손님이 실제로 아이스크림을 구매해봤는지에 대한 데이터도 가지고 있다. 즉, 심슨이 가지고 있는 데이터셋은 다음과 같은 형태를 가지고 있다. 컬럼명 설명 타입 VanillaTaste 바닐라맛 아이스크림 선호도 정수형 (0~25) ChocTaste 초콜릿맛 아이스크림 선호도 정수형 (0~25) Shopped 아이스..