일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- data_analyst
- data
- 신기효과
- 성장
- 야구
- 프로덕트분석
- 프롬프트엔지니어링
- 데이터분석가
- 프롬프트
- aha-moment
- productanalysis
- pandasai
- EDA
- 글또
- gapminder
- retentioneering
- sankey
- 데이터디스커버리플랫폼
- 아하모먼트
- 분석한스푼
- 트위먼의법칙
- 벅슨의역설
- 시각화
- ChatGPT
- 데이터분석
- data-analysis
- 데이터
- soft-skill
- PyGWalker
- 주가데이터
목록생존 도구🏹 (11)
데이터 생존 로그
데이터 분석가와 SQL 쿼리는 떼려해야 뗄 수 없는 관계라 생각한다. 반복적이고 간단한 쿼리를 짜며 고통받을 때도 있지만, 데이터를 봐야하는 입장에서 꼭 선행되어야 하는 작업이기 때문이다. 해당 게시글에서는 SQL 쿼리를 짜는 GPT를 만들어서 간단한 쿼리를 짤 수 있는지 테스트하는 과정을 담아보고자 한다! 그 중, Redshift의 쿼리를 만들어주는 GPT를 만들어보려한다. 나만의 GPT를 만들기 위해 필요한 준비물은 (20달러/월)이다. (GPT 플러스) 바로 시작해보자! 시작하기 GPT에 접속한 후, 우측 상단 +Create 버튼을 클릭하면 GPT Builder가 말을 건다. (GPT를 저 Builder와 대화하면서 만들어가는 것 같다.) 그리고 Configure를 클릭하면 유저가 직접 항목들을 ..
RSI(Relative Strength Index, 상대강도지수)라는 주가 지표를 파이썬을 통해 계산해보고 직관적으로 이해해봅시다. RSI란 무엇일까? RSI는 가격의 상승압력과 하락압력 간의 상대적인 강도를 나타낸다고 한다. (출처) (무슨 말인지 직관적으로 이해가 잘 안되지만.. 일단 pass) RSI는 그 종목이 과매수 상태인지 과매도 상태인지를 판단할 때 사용한다. 일반적으로 RSI가 70% 이상이면 과매수, 30% 이하면 과매도로 판단한다. RSI는 다음과 같은 복잡한 식으로 표현된다. RSI = 100 - 100 / (1+RS) RS = (평균 이득) / (평균 손실) 위 식을 파이썬으로 나타내보고 지표를 직관적으로 이해해보고, 엔비디아 주가에서 RSI를 뽑아보자! RSI 뽑아보기 RSI를 뽑..
해당 게시글에서는 주가 데이터를 받아 원하는 형태로 전처리를 해보도록 하겠습니다. 야후 파이낸스의 주가 데이터를 받아올 수 있는 'yfinance'라는 파이썬 라이브러리를 활용하겠습니다. 개인적으로 궁금한 것들을 몇 가지 정해놓고, 주가 데이터를 통해 확인해봅시다! 제가 확인해볼 것들은 다음 내용들입니다. 2023년 가장 많이 상승(하락)한 종목은? 2023년 거래량이 가장 많았던 종목은? 2023년 중, 어느 시기에 거래량이 많았(적었)을까? Ticker 정보 가져오기 yfinance에서 데이터를 불러올 때, Ticker(티커)라는 것을 인자로 넣어준다고 합니다. 따라서 보고싶은 종목의 데이터를 보기 위해서는 그 종목은 Ticker를 알아야 합니다. Ticker는 야후 파이낸스 홈페이지에 원하는 종목을..
Retentioneering은 python의 제품 분석(product analysis) 라이브러리입니다. Retentioneering을 통해 1) 행동 데이터 전처리 2) 사용자 경로 분석 3) 유저 세분화(군집화)등을 비교적 간단한 코드로 해낼 수 있습니다. 해당 게시글은 Retentioneering 공식문서 Tutorial의 참고하여 작성했습니다. Retentioneering 활용 준비 라이브러리를 설치해주고 !pip install retentioneering import만 해주면 활용 준비 끝! import numpy as np import pandas as pd import matplotlib.pyplot as plt import retentioneering from retentioneering...
XX라는 행동을 YY 기간 안에 ZZ번 하면, 우리 서비스를 계속 활용한다. 본 게시글은 PO의 바이블! 토스 PO SESSION에서 개괄적인 방법을, How to Discover Your App’s ‘Aha Moment’ 게시글에서 조금 더 구체적인 방식과 예시를 참고해서 작성했습니다. 아하모먼트가 뭐에요? 어떻게 해야 유저들이 우리 서비스를 지속적으로 사용할까? 서비스를 제공하는 입장에서는 한 번쯤은 생각해볼만한 문제다. 위 질문에 대한 답을 다음과 같이 추상적으로 생각해보았다. 우리 서비스를 자주 찾는 유저들의 계기를 찾고 그 계기를 다른 유저들이 경험하도록 하자! 그리고 다음 문장들을 살펴보자. 4일 이내에 두 번 이상 송금하기 (토스) 10일 이내에 7명의 친구와 연결하기 (페이스북) 30명 이..
Stremlit을 활용하여 간단한 대시보드를 배포합니다. 스트림릿(Streamlit)은 파이썬 기반으로 대시보드를 만든 후, 배포까지 무료로 할 수 있는 서비스이다. 이번 게시글에선 저번 게시글의 시각화 자료를 가져와서 Stremlit을 통해 배포까지 해보도록 하겠다. 대시보드 기획 저번 글에서 시각자료는 두 가지였다. https://analyst-ggom-chi-kim.tistory.com/10 [야구] 타율이 높으면 득점을 잘한다? (with. 상관관계 분석) 해당 게시글에서는 득점과 상관성이 높은 특성을 찾아내는 과정을 담았습니다. 야구에서 공격하는 팀의 최종 목적은 최대한 많은 득점을 내는 것이다. 홈런을 많이 때려내서 득점을 만들던, 많 analyst-ggom-chi-kim.tistory.com..
해당 게시글은 스탯티즈(링크)에서 야구(KBO) 데이터셋을 크롤링(BeautifulSoup)하여 csv로 만드는 과정을 다룹니다. 개요 MLB는 데이터셋을 api로 제공해주지만, KBO는 그렇지 않다. 그래서 스탯티즈라는 야구 통계 사이트의 데이터를 직접 크롤링해야한다. 환경은 코랩을 활용했으며, beautifulsoup4를 이용했다. 거두절미하고 시작하자. 받고자 하는 데이터 한 시즌을 치룬 팀들의 타격지표를 보고자 한다. 아래 링크를 참조하면 바로 이해할 수 있다. http://www.statiz.co.kr/stat.php?mid=stat&re=0&ys=1982&ye=2023&se=0&te=&tm=&ty=0&qu=auto&po=0&as=&ae=&hi=&un=&pl=&da=1&o1=WAR_ALL_ADJ..
해당 게시글에서는 프롬프트 엔지니어링을 활용한 EDA(Exploratory Data Analysis)를 시도합니다. 개요저번 글을 작성하며 한 가지 아쉬웠던 점이 있었다. pandasai는 API를 활용해야하므로 한정된 만큼만 활용할 수 있었고, 자유롭게 활용하기 위해서는 결제가 필요했다. 그래서 pandas-ai 코드를 까봤고, 다음과 같은 프롬프트로 ChatGPT를 활용하고 있음을 파악했다. https://github.com/gventuri/pandas-ai/tree/main/pandasai/prompts (23년 6월 4일 기준) GitHub - gventuri/pandas-ai: Pandas AI is a Python library that integrates generative artificia..
Intro 해당 게시글은 Pandas에 AI를 입힌 PandasAI에 대해 소개합니다. Pandas는 Data Handling과 Visualization에 많이 활용된다. PandasAI는 Pandas에 Open AI API를 붙혀서, 문장으로 데이터에 대한 질의응답 및 시각화를 할 수 있는 파이썬 라이브러리이다. 활용 준비 활용 준비 방법은 간단하다. pandasai를 설치해주고 import 해준다. pip install pandasai import pandas as pd from pandasai import PandasAI from pandasai.llm.openai import OpenAI 그리고 발급받은 Open AI API key만 입력해주면 활용 준비 끝! OPENAI_API_KEY = "발..
Datahub가 뭐에요? Chat GPT에게 물었다. 데이터 분석가 관점에서 짧게 Datahub를 정의해보면 아래와 같다. 다양한 데이터 소스에 흩어져있는 스키마들의 정보를 보기 쉽게 정리해주는 툴이다. 즉, 사용자가 보고싶은 정보는 어떤 테이블을 활용해야하며, 그 테이블은 어떤 구조를 가지고 있는지 쉽게 찾아주는 역할을 한다. 그래서? 데이터 분석가로 일하면서 아래와 같은 고민을 했다. 데이터 요청에 더 빠르고 정확하게 대응할 수 없을까? 데이터 구조(혹은 특정 조건)에 대해 반복되는 질문이 겹치는데, 이걸 줄일 수는 없을까? 개발자와 소통을 통해 어렵게 스키마 구조를 알아냈는데, 효율적으로 아카이빙 및 공유할 수는 없을까? 데이터 분석가 신규입사자분들의 온보딩을 빠르게 도와줄 수는 없을까? 사실 위 ..