일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 글또
- 트위먼의법칙
- 프롬프트
- 전환분석
- aha-moment
- n8n
- EDA
- 데이터
- 성장
- 데이터디스커버리플랫폼
- DataAnalyst
- 분석한스푼
- 데이터분석
- pandasai
- data-analysis
- PyGWalker
- gapminder
- 주가데이터
- 벅슨의역설
- retentioneering
- 야구
- DataAnalysis
- 시각화
- 데이터분석가
- 프롬프트엔지니어링
- 신기효과
- data
- 인과추론
- 아하모먼트
- productanalysis
데이터 생존 로그
Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가? 본문
Datahub가 뭐에요?
Chat GPT에게 물었다.
데이터 분석가 관점에서 짧게 Datahub를 정의해보면 아래와 같다.
- 다양한 데이터 소스에 흩어져있는 스키마들의 정보를
- 보기 쉽게 정리해주는 툴이다.
즉, 사용자가 보고싶은 정보는 어떤 테이블을 활용해야하며,
그 테이블은 어떤 구조를 가지고 있는지 쉽게 찾아주는 역할을 한다.
그래서?
데이터 분석가로 일하면서 아래와 같은 고민을 했다.
- 데이터 요청에 더 빠르고 정확하게 대응할 수 없을까?
- 데이터 구조(혹은 특정 조건)에 대해 반복되는 질문이 겹치는데, 이걸 줄일 수는 없을까?
- 개발자와 소통을 통해 어렵게 스키마 구조를 알아냈는데, 효율적으로 아카이빙 및 공유할 수는 없을까?
- 데이터 분석가 신규입사자분들의 온보딩을 빠르게 도와줄 수는 없을까?
사실 위 고민들은 ERD로도 충분히 해결할 수 있는 부분도 있다.
하지만 데이터 관련 직종이 아닌 분들도 데이터에 대한 니즈가 늘어나고 있으며,
데이터 문화를 더 정착시키기 위해서는 조금 더 쉬운 표현과 깔끔한 UI가 동반된 무언가가 필요했다!
그래서 이번 글에서는 데이터 분석가의 관점에서 Datahub의 기능을 살펴보고,
업무 최적화에 어떻게 활용할 수 있을지 고민해보려고 한다.
Datahub 톺아보기 ( + 활용 아이디어)
아래 링크를 통해 Datahub를 직접 체험해볼 수 있다
https://demo.datahubproject.io/
위 링크를 통해 접속한 메인 홈이다.
상단 검색창에 'covid'를 검색하면 아래의 좌측 그림과 같이 covid와 관련된 데이터셋이 나오게 된다.
두 번째에 있는 bigquery-public-data.covid19_ecdc.covid_19_geographic_distribution_worldwide를 클릭하면
우측 그림과 같은 화면이 펼쳐진다.
진입한 페이지를 보니, 테이블별로 Scheme, Documentation, Lineage, Properties등의 기능이 있는 것 같았다.
하나씩 살펴보자.
우선 Scheme이다.
Scheme에서는 테이블의 필드 정보를 상세하게 보여줄 수 있다.
그러면 Scheme 페이지를 어떻게 활용할 수 있을까?
개인적으로 생각해본 활용방안(아이디어)는 다음과 같다.
- Field: 필드명, 타입, null 여부 등
- Description: 한글화된 필드명
- 특별히 알아야할 정보 기입
ex) daily_deaths는 어떤 식으로 집계되는지 세부기준 등
- 특별히 알아야할 정보 기입
- Tags: 태그 구성
- 태그를 구성하는 것도 좋겠지만, 활용 빈도 수치화해서 넣어도 좋을 것 같음
- Glossary Terms: 용어 사전
- 필드의 값들을 한글화 하거나, 범위를 적기에 적합할 것 같음
- ex) year 필드의 경우, 측정 범위(2020 ~ 2023)을 기입
다음은 Documentation 페이지다.
Add Documentation을 클릭하면 MarkDown을 활용하여 내용을 기입할 수 있는 구조다.
위 페이지에 대한 활용 아이디어는 다음과 같다.
- 어떤 로직으로 테이블의 데이터가 쌓이는지?
- 테이블을 보기 전에 알아야할 서비스적 배경지식
- 자주 활용하는 조건(쿼리 예시)
- 테이블의 활용 사례 (대시보드 링크, Add Link 버튼 활용)
그 외에 Lineage는 테이블간 연관관계(join 등)를 나타낼 수 있는 페이지다.
목적이나 조건에 따라 join을 거는 기준이 달라질 수 있기 때문에 주의해서 활용해야할 것 같다.
느낀 점
일단 UI가 깔끔해서 접근 허들이 낮은 것 같아 좋다.
누구나 친근하게 원하는 데이터를 찾아볼 수 있으며,
예시까지 있다면 사내 데이터 활용 문화에 좋은 영향을 끼칠 수 있을 것 같다.
하지만, 그 전에 테이블에 대한 정보가 수기로 입력되어야 한다는 단점이 존재한다.
물론 새롭게 추가되는 테이블이나 업데이트되는 스키마 구조도 말이다.
그래도 자주 질문이 들어오는 테이블에 대한 정보부터 채운다면 점점 리소스가 줄어들지 않을까?
'생존 도구🏹' 카테고리의 다른 글
[Streamlit] 간단한 대시보드 배포하기(with. KBO 타격지표) (0) | 2023.07.02 |
---|---|
[야구] 스탯티즈 데이터셋 크롤링하기 (with. BeautifulSoup) (0) | 2023.06.12 |
ChatGPT랑 같이 EDA해보기 (with. 프롬프트 엔지니어링) (0) | 2023.06.04 |
PandasAI: 판다스, AI를 만나다. (1) | 2023.05.04 |
PyGWalker: 태블로를 머금은 파이썬 (1) | 2023.03.07 |