일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- DataAnalyst
- 데이터분석
- 신기효과
- 프롬프트엔지니어링
- data
- 인과추론
- 시각화
- 전환분석
- PyGWalker
- 프롬프트
- n8n
- gapminder
- pandasai
- 야구
- 분석한스푼
- EDA
- aha-moment
- 데이터디스커버리플랫폼
- data-analysis
- 트위먼의법칙
- retentioneering
- productanalysis
- DataAnalysis
- 아하모먼트
- 데이터
- 벅슨의역설
- 주가데이터
- 성장
- 글또
- 데이터분석가
목록분류 전체보기 (28)
데이터 생존 로그

데이터 분석가와 SQL 쿼리는 떼려해야 뗄 수 없는 관계라 생각한다. 반복적이고 간단한 쿼리를 짜며 고통받을 때도 있지만, 데이터를 봐야하는 입장에서 꼭 선행되어야 하는 작업이기 때문이다. 해당 게시글에서는 SQL 쿼리를 짜는 GPT를 만들어서 간단한 쿼리를 짤 수 있는지 테스트하는 과정을 담아보고자 한다! 그 중, Redshift의 쿼리를 만들어주는 GPT를 만들어보려한다. 나만의 GPT를 만들기 위해 필요한 준비물은 (20달러/월)이다. (GPT 플러스) 바로 시작해보자! 시작하기 GPT에 접속한 후, 우측 상단 +Create 버튼을 클릭하면 GPT Builder가 말을 건다. (GPT를 저 Builder와 대화하면서 만들어가는 것 같다.) 그리고 Configure를 클릭하면 유저가 직접 항목들을 ..

RSI(Relative Strength Index, 상대강도지수)라는 주가 지표를 파이썬을 통해 계산해보고 직관적으로 이해해봅시다. RSI란 무엇일까? RSI는 가격의 상승압력과 하락압력 간의 상대적인 강도를 나타낸다고 한다. (출처) (무슨 말인지 직관적으로 이해가 잘 안되지만.. 일단 pass) RSI는 그 종목이 과매수 상태인지 과매도 상태인지를 판단할 때 사용한다. 일반적으로 RSI가 70% 이상이면 과매수, 30% 이하면 과매도로 판단한다. RSI는 다음과 같은 복잡한 식으로 표현된다. RSI = 100 - 100 / (1+RS) RS = (평균 이득) / (평균 손실) 위 식을 파이썬으로 나타내보고 지표를 직관적으로 이해해보고, 엔비디아 주가에서 RSI를 뽑아보자! RSI 뽑아보기 RSI를 뽑..

pandas dataframe으로 퍼널을 만들어서 확인해봅시다. 예시 데이터는 kaggle에서 가져오도록 하겠습니다. https://www.kaggle.com/datasets/aerodinamicc/ecommerce-website-funnel-analysis?resource=download E-commerce website Funnel analysis www.kaggle.com 데이터셋 불러오기 필요한 라이브러리를 import하고, 데이터셋을 불러옵니다. import pandas as pd import plotly import plotly.express as px home = pd.read_csv('./home_page_table.csv') payment_conf = pd.read_csv('./payme..

해당 게시글에서는 주가 데이터를 받아 원하는 형태로 전처리를 해보도록 하겠습니다. 야후 파이낸스의 주가 데이터를 받아올 수 있는 'yfinance'라는 파이썬 라이브러리를 활용하겠습니다. 개인적으로 궁금한 것들을 몇 가지 정해놓고, 주가 데이터를 통해 확인해봅시다! 제가 확인해볼 것들은 다음 내용들입니다. 2023년 가장 많이 상승(하락)한 종목은? 2023년 거래량이 가장 많았던 종목은? 2023년 중, 어느 시기에 거래량이 많았(적었)을까? Ticker 정보 가져오기 yfinance에서 데이터를 불러올 때, Ticker(티커)라는 것을 인자로 넣어준다고 합니다. 따라서 보고싶은 종목의 데이터를 보기 위해서는 그 종목은 Ticker를 알아야 합니다. Ticker는 야후 파이낸스 홈페이지에 원하는 종목을..

Retentioneering은 python의 제품 분석(product analysis) 라이브러리입니다. Retentioneering을 통해 1) 행동 데이터 전처리 2) 사용자 경로 분석 3) 유저 세분화(군집화)등을 비교적 간단한 코드로 해낼 수 있습니다. 해당 게시글은 Retentioneering 공식문서 Tutorial의 참고하여 작성했습니다. Retentioneering 활용 준비 라이브러리를 설치해주고 !pip install retentioneering import만 해주면 활용 준비 끝! import numpy as np import pandas as pd import matplotlib.pyplot as plt import retentioneering from retentioneering...

XX라는 행동을 YY 기간 안에 ZZ번 하면, 우리 서비스를 계속 활용한다. 본 게시글은 PO의 바이블! 토스 PO SESSION에서 개괄적인 방법을, How to Discover Your App’s ‘Aha Moment’ 게시글에서 조금 더 구체적인 방식과 예시를 참고해서 작성했습니다. 아하모먼트가 뭐에요? 어떻게 해야 유저들이 우리 서비스를 지속적으로 사용할까? 서비스를 제공하는 입장에서는 한 번쯤은 생각해볼만한 문제다. 위 질문에 대한 답을 다음과 같이 추상적으로 생각해보았다. 우리 서비스를 자주 찾는 유저들의 계기를 찾고 그 계기를 다른 유저들이 경험하도록 하자! 그리고 다음 문장들을 살펴보자. 4일 이내에 두 번 이상 송금하기 (토스) 10일 이내에 7명의 친구와 연결하기 (페이스북) 30명 이..

해당 게시글에서는 벅슨의 역설(Berkson's paradox)을 알기 쉽게 담았습니다. 상황 가정 심슨은 아이스크림집 사장님이다. 바닐라 아이스크림을 사면 초코 아이스크림을 50%에 살 수 있는 할인쿠폰을 기획하려고 한다. 데이터셋 데이터 기반으로 의사결정하는걸 좋아하는 심슨은 손님의 입맛을 파악하기 위해 초콜릿 아이스크림과 바닐라 아이스크림에 대한 선호도를 조사해놓았다. 또한 설문조사에 참여한 손님이 실제로 아이스크림을 구매해봤는지에 대한 데이터도 가지고 있다. 즉, 심슨이 가지고 있는 데이터셋은 다음과 같은 형태를 가지고 있다. 컬럼명 설명 타입 VanillaTaste 바닐라맛 아이스크림 선호도 정수형 (0~25) ChocTaste 초콜릿맛 아이스크림 선호도 정수형 (0~25) Shopped 아이스..

Stremlit을 활용하여 간단한 대시보드를 배포합니다. 스트림릿(Streamlit)은 파이썬 기반으로 대시보드를 만든 후, 배포까지 무료로 할 수 있는 서비스이다. 이번 게시글에선 저번 게시글의 시각화 자료를 가져와서 Stremlit을 통해 배포까지 해보도록 하겠다. 대시보드 기획 저번 글에서 시각자료는 두 가지였다. https://analyst-ggom-chi-kim.tistory.com/10 [야구] 타율이 높으면 득점을 잘한다? (with. 상관관계 분석) 해당 게시글에서는 득점과 상관성이 높은 특성을 찾아내는 과정을 담았습니다. 야구에서 공격하는 팀의 최종 목적은 최대한 많은 득점을 내는 것이다. 홈런을 많이 때려내서 득점을 만들던, 많 analyst-ggom-chi-kim.tistory.com..

해당 게시글에서는 득점과 상관성이 높은 특성을 찾아내는 과정을 담았습니다. 야구에서 공격하는 팀의 최종 목적은 최대한 많은 득점을 내는 것이다. 홈런을 많이 때려내서 득점을 만들던, 많은 안타와 도루를 통해 득점을 만들던 상대 팀보다만 많은 득점을 하는 팀이 승리한다. 야구는 기록의 스포츠인 만큼, 다양한 지표를 가지고 있다. 그래서 해당 게시글에서는 다양한 지표 중, 득점과 가장 높은 상관성을 가지는 특성이 무엇이 있는지 찾아보고자 한다. 저번 게시글에서 크롤링했던 지표를 활용해서 분석해보자. 저번 게시글 - https://analyst-ggom-chi-kim.tistory.com/9 야구 데이터셋 크롤링하기 (with. 스탯티즈, BeautifulSoup) 해당 게시글은 스탯티즈(링크)에서 야구(KB..

해당 게시글은 스탯티즈(링크)에서 야구(KBO) 데이터셋을 크롤링(BeautifulSoup)하여 csv로 만드는 과정을 다룹니다. 개요 MLB는 데이터셋을 api로 제공해주지만, KBO는 그렇지 않다. 그래서 스탯티즈라는 야구 통계 사이트의 데이터를 직접 크롤링해야한다. 환경은 코랩을 활용했으며, beautifulsoup4를 이용했다. 거두절미하고 시작하자. 받고자 하는 데이터 한 시즌을 치룬 팀들의 타격지표를 보고자 한다. 아래 링크를 참조하면 바로 이해할 수 있다. http://www.statiz.co.kr/stat.php?mid=stat&re=0&ys=1982&ye=2023&se=0&te=&tm=&ty=0&qu=auto&po=0&as=&ae=&hi=&un=&pl=&da=1&o1=WAR_ALL_ADJ..