일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 벅슨의역설
- DataAnalysis
- data-analysis
- 데이터분석가
- 주가데이터
- 성장
- retentioneering
- aha-moment
- 아하모먼트
- 프롬프트
- 시각화
- pandasai
- 글또
- 야구
- productanalysis
- 프롬프트엔지니어링
- data
- 분석한스푼
- 데이터디스커버리플랫폼
- DataAnalyst
- 인과추론
- 트위먼의법칙
- 데이터
- n8n
- 데이터분석
- PyGWalker
- 신기효과
- EDA
- gapminder
- 전환분석
목록EDA (3)
데이터 생존 로그

해당 게시글에서는 득점과 상관성이 높은 특성을 찾아내는 과정을 담았습니다. 야구에서 공격하는 팀의 최종 목적은 최대한 많은 득점을 내는 것이다. 홈런을 많이 때려내서 득점을 만들던, 많은 안타와 도루를 통해 득점을 만들던 상대 팀보다만 많은 득점을 하는 팀이 승리한다. 야구는 기록의 스포츠인 만큼, 다양한 지표를 가지고 있다. 그래서 해당 게시글에서는 다양한 지표 중, 득점과 가장 높은 상관성을 가지는 특성이 무엇이 있는지 찾아보고자 한다. 저번 게시글에서 크롤링했던 지표를 활용해서 분석해보자. 저번 게시글 - https://analyst-ggom-chi-kim.tistory.com/9 야구 데이터셋 크롤링하기 (with. 스탯티즈, BeautifulSoup) 해당 게시글은 스탯티즈(링크)에서 야구(KB..

해당 게시글에서는 프롬프트 엔지니어링을 활용한 EDA(Exploratory Data Analysis)를 시도합니다. 개요저번 글을 작성하며 한 가지 아쉬웠던 점이 있었다. pandasai는 API를 활용해야하므로 한정된 만큼만 활용할 수 있었고, 자유롭게 활용하기 위해서는 결제가 필요했다. 그래서 pandas-ai 코드를 까봤고, 다음과 같은 프롬프트로 ChatGPT를 활용하고 있음을 파악했다. https://github.com/gventuri/pandas-ai/tree/main/pandasai/prompts (23년 6월 4일 기준) GitHub - gventuri/pandas-ai: Pandas AI is a Python library that integrates generative artificia..

Kanaries에서 태블로 스타일의 파이썬 패키지인 PyGWalker를 만들었다. 정제가 깔끔하게 완료된 테이블을 요리조리 EDA 해볼 때 유용할 것 같다. 바로 활용해보자! 패키지를 install 해줍시다. pip install pygwalker 그 후 import 해주면 활용준비 끝 import pandas as pd import pygwalker as pyg 해당 게시글에서 활용할 데이터는 갭마인더에서 가져왔으며, 세 가지 필드만 뽑아서 활용할 것이다. 필드명 데이터 타입 country string income int life int 이제 데이터까지 준비되었으니 실행시켜보자 data = pd.read_csv('./preprocessed.csv') pyg.walk(data) X축, Y축, 활용가능한 ..