일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 프롬프트엔지니어링
- DataAnalyst
- 벅슨의역설
- 데이터
- 트위먼의법칙
- data
- 글또
- gapminder
- EDA
- 데이터디스커버리플랫폼
- 인과추론
- data-analysis
- productanalysis
- 데이터분석
- retentioneering
- n8n
- 신기효과
- 주가데이터
- 아하모먼트
- 데이터분석가
- 야구
- 전환분석
- pandasai
- PyGWalker
- 시각화
- DataAnalysis
- 분석한스푼
- 성장
- 프롬프트
- aha-moment
목록생존 도구🏹 (15)
데이터 생존 로그

해당 게시글은 스탯티즈(링크)에서 야구(KBO) 데이터셋을 크롤링(BeautifulSoup)하여 csv로 만드는 과정을 다룹니다. 개요 MLB는 데이터셋을 api로 제공해주지만, KBO는 그렇지 않다. 그래서 스탯티즈라는 야구 통계 사이트의 데이터를 직접 크롤링해야한다. 환경은 코랩을 활용했으며, beautifulsoup4를 이용했다. 거두절미하고 시작하자. 받고자 하는 데이터 한 시즌을 치룬 팀들의 타격지표를 보고자 한다. 아래 링크를 참조하면 바로 이해할 수 있다. http://www.statiz.co.kr/stat.php?mid=stat&re=0&ys=1982&ye=2023&se=0&te=&tm=&ty=0&qu=auto&po=0&as=&ae=&hi=&un=&pl=&da=1&o1=WAR_ALL_ADJ..

해당 게시글에서는 프롬프트 엔지니어링을 활용한 EDA(Exploratory Data Analysis)를 시도합니다. 개요저번 글을 작성하며 한 가지 아쉬웠던 점이 있었다. pandasai는 API를 활용해야하므로 한정된 만큼만 활용할 수 있었고, 자유롭게 활용하기 위해서는 결제가 필요했다. 그래서 pandas-ai 코드를 까봤고, 다음과 같은 프롬프트로 ChatGPT를 활용하고 있음을 파악했다. https://github.com/gventuri/pandas-ai/tree/main/pandasai/prompts (23년 6월 4일 기준) GitHub - gventuri/pandas-ai: Pandas AI is a Python library that integrates generative artificia..

Intro 해당 게시글은 Pandas에 AI를 입힌 PandasAI에 대해 소개합니다. Pandas는 Data Handling과 Visualization에 많이 활용된다. PandasAI는 Pandas에 Open AI API를 붙혀서, 문장으로 데이터에 대한 질의응답 및 시각화를 할 수 있는 파이썬 라이브러리이다. 활용 준비 활용 준비 방법은 간단하다. pandasai를 설치해주고 import 해준다. pip install pandasai import pandas as pd from pandasai import PandasAI from pandasai.llm.openai import OpenAI 그리고 발급받은 Open AI API key만 입력해주면 활용 준비 끝! OPENAI_API_KEY = "발..

Datahub가 뭐에요? Chat GPT에게 물었다. 데이터 분석가 관점에서 짧게 Datahub를 정의해보면 아래와 같다. 다양한 데이터 소스에 흩어져있는 스키마들의 정보를 보기 쉽게 정리해주는 툴이다. 즉, 사용자가 보고싶은 정보는 어떤 테이블을 활용해야하며, 그 테이블은 어떤 구조를 가지고 있는지 쉽게 찾아주는 역할을 한다. 그래서? 데이터 분석가로 일하면서 아래와 같은 고민을 했다. 데이터 요청에 더 빠르고 정확하게 대응할 수 없을까? 데이터 구조(혹은 특정 조건)에 대해 반복되는 질문이 겹치는데, 이걸 줄일 수는 없을까? 개발자와 소통을 통해 어렵게 스키마 구조를 알아냈는데, 효율적으로 아카이빙 및 공유할 수는 없을까? 데이터 분석가 신규입사자분들의 온보딩을 빠르게 도와줄 수는 없을까? 사실 위 ..

Kanaries에서 태블로 스타일의 파이썬 패키지인 PyGWalker를 만들었다. 정제가 깔끔하게 완료된 테이블을 요리조리 EDA 해볼 때 유용할 것 같다. 바로 활용해보자! 패키지를 install 해줍시다. pip install pygwalker 그 후 import 해주면 활용준비 끝 import pandas as pd import pygwalker as pyg 해당 게시글에서 활용할 데이터는 갭마인더에서 가져왔으며, 세 가지 필드만 뽑아서 활용할 것이다. 필드명 데이터 타입 country string income int life int 이제 데이터까지 준비되었으니 실행시켜보자 data = pd.read_csv('./preprocessed.csv') pyg.walk(data) X축, Y축, 활용가능한 ..