Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가?

Notice

Recent Posts

Recent Comments

Link

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

관리 메뉴

데이터 생존 로그

Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가? 본문

생존 도구🏹

Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가?

분석가 베어그릴스 2023. 3. 25. 14:51

Datahub가 뭐에요?

Chat GPT에게 물었다.

데이터 분석가 관점에서 짧게 Datahub를 정의해보면 아래와 같다.

다양한 데이터 소스에 흩어져있는 스키마들의 정보를
보기 쉽게 정리해주는 툴이다.

즉, 사용자가 보고싶은 정보는 어떤 테이블을 활용해야하며,
그 테이블은 어떤 구조를 가지고 있는지 쉽게 찾아주는 역할을 한다.

그래서?

데이터 분석가로 일하면서 아래와 같은 고민을 했다.

데이터 요청에 더 빠르고 정확하게 대응할 수 없을까?
데이터 구조(혹은 특정 조건)에 대해 반복되는 질문이 겹치는데, 이걸 줄일 수는 없을까?
개발자와 소통을 통해 어렵게 스키마 구조를 알아냈는데, 효율적으로 아카이빙 및 공유할 수는 없을까?
데이터 분석가 신규입사자분들의 온보딩을 빠르게 도와줄 수는 없을까?

사실 위 고민들은 ERD로도 충분히 해결할 수 있는 부분도 있다.

하지만 데이터 관련 직종이 아닌 분들도 데이터에 대한 니즈가 늘어나고 있으며,

데이터 문화를 더 정착시키기 위해서는 조금 더 쉬운 표현과 깔끔한 UI가 동반된 무언가가 필요했다!

그래서 이번 글에서는 데이터 분석가의 관점에서 Datahub의 기능을 살펴보고,
업무 최적화에 어떻게 활용할 수 있을지 고민해보려고 한다.

Datahub 톺아보기 ( + 활용 아이디어)

아래 링크를 통해 Datahub를 직접 체험해볼 수 있다

https://demo.datahubproject.io/

위 링크를 통해 접속한 메인 홈이다.

상단 검색창에 'covid'를 검색하면 아래의 좌측 그림과 같이 covid와 관련된 데이터셋이 나오게 된다.

두 번째에 있는 bigquery-public-data.covid19_ecdc.covid_19_geographic_distribution_worldwide를 클릭하면

우측 그림과 같은 화면이 펼쳐진다.

(우측 그림 기준) Scheme, Documentation, Lineage, Properties 기능을 활용할 수 있음

진입한 페이지를 보니, 테이블별로 Scheme, Documentation, Lineage, Properties등의 기능이 있는 것 같았다.

하나씩 살펴보자.

우선 Scheme이다.

Scheme에서는 테이블의 필드 정보를 상세하게 보여줄 수 있다.

그러면 Scheme 페이지를 어떻게 활용할 수 있을까?

개인적으로 생각해본 활용방안(아이디어)는 다음과 같다.

Field: 필드명, 타입, null 여부 등
Description: 한글화된 필드명
- 특별히 알아야할 정보 기입
  ex) daily_deaths는 어떤 식으로 집계되는지 세부기준 등
Tags: 태그 구성
- 태그를 구성하는 것도 좋겠지만, 활용 빈도 수치화해서 넣어도 좋을 것 같음
Glossary Terms: 용어 사전
- 필드의 값들을 한글화 하거나, 범위를 적기에 적합할 것 같음
- ex) year 필드의 경우, 측정 범위(2020 ~ 2023)을 기입

다음은 Documentation 페이지다.

Add Documentation을 클릭하면 MarkDown을 활용하여 내용을 기입할 수 있는 구조다.

위 페이지에 대한 활용 아이디어는 다음과 같다.

어떤 로직으로 테이블의 데이터가 쌓이는지?
테이블을 보기 전에 알아야할 서비스적 배경지식
자주 활용하는 조건(쿼리 예시)
테이블의 활용 사례 (대시보드 링크, Add Link 버튼 활용)

그 외에 Lineage는 테이블간 연관관계(join 등)를 나타낼 수 있는 페이지다.

목적이나 조건에 따라 join을 거는 기준이 달라질 수 있기 때문에 주의해서 활용해야할 것 같다.

느낀 점

일단 UI가 깔끔해서 접근 허들이 낮은 것 같아 좋다.

누구나 친근하게 원하는 데이터를 찾아볼 수 있으며,
예시까지 있다면 사내 데이터 활용 문화에 좋은 영향을 끼칠 수 있을 것 같다.

하지만, 그 전에 테이블에 대한 정보가 수기로 입력되어야 한다는 단점이 존재한다.

물론 새롭게 추가되는 테이블이나 업데이트되는 스키마 구조도 말이다.

그래도 자주 질문이 들어오는 테이블에 대한 정보부터 채운다면 점점 리소스가 줄어들지 않을까?

'생존 도구🏹' 카테고리의 다른 글

[Streamlit] 간단한 대시보드 배포하기(with. KBO 타격지표) (0)	2023.07.02
[야구] 스탯티즈 데이터셋 크롤링하기 (with. BeautifulSoup) (0)	2023.06.12
ChatGPT랑 같이 EDA해보기 (with. 프롬프트 엔지니어링) (0)	2023.06.04
PandasAI: 판다스, AI를 만나다. (1)	2023.05.04
PyGWalker: 태블로를 머금은 파이썬 (1)	2023.03.07

'생존 도구🏹' Related Articles

Comments

데이터 생존 로그

Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가? 본문

Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가?

Datahub가 뭐에요?

그래서?

Datahub 톺아보기 ( + 활용 아이디어)

느낀 점

'생존 도구🏹' 카테고리의 다른 글

티스토리툴바