일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 신기효과
- EDA
- 데이터분석
- DataAnalysis
- 아하모먼트
- 성장
- n8n
- PyGWalker
- 프롬프트엔지니어링
- gapminder
- 프롬프트
- 벅슨의역설
- productanalysis
- 데이터디스커버리플랫폼
- aha-moment
- 분석한스푼
- 데이터분석가
- 주가데이터
- 전환분석
- 야구
- 인과추론
- retentioneering
- 트위먼의법칙
- data-analysis
- 시각화
- pandasai
- data
- 데이터
- 글또
- DataAnalyst
데이터 생존 로그
PyGWalker: 태블로를 머금은 파이썬 본문
Kanaries에서 태블로 스타일의 파이썬 패키지인 PyGWalker를 만들었다.
정제가 깔끔하게 완료된 테이블을 요리조리 EDA 해볼 때 유용할 것 같다.
바로 활용해보자!
패키지를 install 해줍시다.
pip install pygwalker
그 후 import 해주면 활용준비 끝
import pandas as pd
import pygwalker as pyg
해당 게시글에서 활용할 데이터는 갭마인더에서 가져왔으며, 세 가지 필드만 뽑아서 활용할 것이다.
필드명 | 데이터 타입 |
country | string |
income | int |
life | int |
이제 데이터까지 준비되었으니 실행시켜보자
data = pd.read_csv('./preprocessed.csv')
pyg.walk(data)
X축, Y축, 활용가능한 필드 목록, 필터 등 UI가 태블로랑 굉장히 유사하다.
좌측 상단 Data로 가보면 간단하게 raw 데이터를 볼 수 있다.
간단하게 income과 life 필드를 올려보자.
하나의 점만 찍혔는데, aggregation(집계)를 off하자 모든 국가에 대해서 scatter plot이 찍혔다.
income이 25,000 이상인 것들을 outlier로 판단하고 필터링을 통해 걸러볼까?
간단하게 필터링할 수 있다.
다른 기능들을 살펴보자
Mark Type을 클릭해보니 다양한 형태의 그래프를 지원해주는걸 볼 수 있다.
형태만 맞추면 자유롭게 활용 가능할 것 같다.
이 외에도 stack, export 등 간단한 기능들을 제공해준다.
마지막으로, 혼자 몇 일간 요리조리 활용해본 후기는 다음과 같다.
- 정제가 완료된 테이블이 존재한다는 가정 하에서는 빠르게 원하는 모양의 그림을 찍어볼 수 있다.
- 다만, 실무에서는 위 가정이 성립하기 어려워서 활용 범위는 줄어들 것 같다.
- 간단하고 빠른 확인은 태블로가 짱이라고 생각했는데,, 새삼 파이썬의 발전 속도가 놀랍게 느껴졌다.
- 태블로의 수식이나 다른 기능들도 어쩌면 생각보다 빠르게 반영되어 출시될지도...?!
[참고자료]
Github: https://github.com/Kanaries/pygwalker
공식 document: https://docs.kanaries.net/rath/tutorials/mega-auto-data-exploration
'생존 도구🏹' 카테고리의 다른 글
[Streamlit] 간단한 대시보드 배포하기(with. KBO 타격지표) (0) | 2023.07.02 |
---|---|
[야구] 스탯티즈 데이터셋 크롤링하기 (with. BeautifulSoup) (0) | 2023.06.12 |
ChatGPT랑 같이 EDA해보기 (with. 프롬프트 엔지니어링) (0) | 2023.06.04 |
PandasAI: 판다스, AI를 만나다. (1) | 2023.05.04 |
Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가? (0) | 2023.03.25 |