데이터 생존 로그

PyGWalker: 태블로를 머금은 파이썬 본문

생존 도구🏹

PyGWalker: 태블로를 머금은 파이썬

분석가 베어그릴스 2023. 3. 7. 23:12

Kanaries에서 태블로 스타일의 파이썬 패키지인 PyGWalker를 만들었다.

 

정제가 깔끔하게 완료된 테이블을 요리조리 EDA 해볼 때 유용할 것 같다.

 

바로 활용해보자!

 

패키지를 install 해줍시다.

pip install pygwalker

 

그 후 import 해주면 활용준비 끝

import pandas as pd
import pygwalker as pyg

 

해당 게시글에서 활용할 데이터는 갭마인더에서 가져왔으며, 세 가지 필드만 뽑아서 활용할 것이다.

필드명 데이터 타입
country string
income int
life int

 

이제 데이터까지 준비되었으니 실행시켜보자

data = pd.read_csv('./preprocessed.csv')
pyg.walk(data)

X축, Y축, 활용가능한 필드 목록, 필터 등 UI가 태블로랑 굉장히 유사하다.

 

좌측 상단 Data로 가보면 간단하게 raw 데이터를 볼 수 있다.

 

간단하게 income과 life 필드를 올려보자.

 

하나의 점만 찍혔는데, aggregation(집계)를 off하자 모든 국가에 대해서 scatter plot이 찍혔다.

 

income이 25,000 이상인 것들을 outlier로 판단하고 필터링을 통해 걸러볼까?

 

간단하게 필터링할 수 있다.

 

다른 기능들을 살펴보자

Mark Type을 클릭해보니 다양한 형태의 그래프를 지원해주는걸 볼 수 있다.

형태만 맞추면 자유롭게 활용 가능할 것 같다.

 

이 외에도 stack, export 등 간단한 기능들을 제공해준다.

 

 

마지막으로, 혼자 몇 일간 요리조리 활용해본 후기는 다음과 같다.

  • 정제가 완료된 테이블이 존재한다는 가정 하에서는 빠르게 원하는 모양의 그림을 찍어볼 수 있다.
  • 다만, 실무에서는 위 가정이 성립하기 어려워서 활용 범위는 줄어들 것 같다.
  • 간단하고 빠른 확인은 태블로가 짱이라고 생각했는데,, 새삼 파이썬의 발전 속도가 놀랍게 느껴졌다.
  • 태블로의 수식이나 다른 기능들도 어쩌면 생각보다 빠르게 반영되어 출시될지도...?!

 

[참고자료]

Github: https://github.com/Kanaries/pygwalker

공식 document: https://docs.kanaries.net/rath/tutorials/mega-auto-data-exploration

반응형
Comments