데이터 생존 로그

Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가? 본문

생존 도구🏹

Datahub: 추출에 쫓기는 데이터 분석가에게 희망이 될 상인가?

분석가 베어그릴스 2023. 3. 25. 14:51

Datahub가 뭐에요?

Chat GPT에게 물었다.

이렇게 길게 설명하는건 내 블로그의 평균 체류시간에 해롭다.

 

데이터 분석가 관점에서 짧게 Datahub를 정의해보면 아래와 같다.

  • 다양한 데이터 소스에 흩어져있는 스키마들의 정보를
  • 보기 쉽게 정리해주는 툴이다.

즉, 사용자가 보고싶은 정보는 어떤 테이블을 활용해야하며,
테이블은 어떤 구조를 가지고 있는지 쉽게 찾아주는 역할을 한다.


그래서?

데이터 분석가로 일하면서 아래와 같은 고민을 했다.

  • 데이터 요청에 더 빠르고 정확하게 대응할 수 없을까?
  • 데이터 구조(혹은 특정 조건)에 대해 반복되는 질문이 겹치는데, 이걸 줄일 수는 없을까?
  • 개발자와 소통을 통해 어렵게 스키마 구조를 알아냈는데, 효율적으로 아카이빙 및 공유할 수는 없을까?
  • 데이터 분석가 신규입사자분들의 온보딩을 빠르게 도와줄 수는 없을까?

사실 위 고민들은 ERD로도 충분히 해결할 수 있는 부분도 있다.

 

하지만 데이터 관련 직종이 아닌 분들도 데이터에 대한 니즈가 늘어나고 있으며,

데이터 문화를 더 정착시키기 위해서는 조금 더 쉬운 표현과 깔끔한 UI가 동반된 무언가가 필요했다!

 

 

그래서 이번 글에서는 데이터 분석가의 관점에서 Datahub의 기능을 살펴보고,
업무 최적화에 어떻게 활용할 수 있을지 고민해보려고 한다.


Datahub 톺아보기 ( + 활용 아이디어)

아래 링크를 통해 Datahub를 직접 체험해볼 수 있다

https://demo.datahubproject.io/

 

위 링크를 통해 접속한 메인 홈이다.

 

상단 검색창에 'covid'를 검색하면 아래의 좌측 그림과 같이 covid와 관련된 데이터셋이 나오게 된다.

두 번째에 있는 bigquery-public-data.covid19_ecdc.covid_19_geographic_distribution_worldwide를 클릭하면

우측 그림과 같은 화면이 펼쳐진다.

(우측 그림 기준) Scheme, Documentation, Lineage, Properties 기능을 활용할 수 있음

진입한 페이지를 보니, 테이블별로 Scheme, Documentation, Lineage, Properties등의 기능이 있는 것 같았다.

하나씩 살펴보자.

 

 

우선 Scheme이다.

Scheme에서는 테이블의 필드 정보를 상세하게 보여줄 수 있다.

 

그러면 Scheme 페이지를 어떻게 활용할 수 있을까?

 

개인적으로 생각해본 활용방안(아이디어)는 다음과 같다.

  • Field: 필드명, 타입, null 여부 등
  • Description: 한글화된 필드명
    • 특별히 알아야할 정보 기입
      ex) daily_deaths는 어떤 식으로 집계되는지 세부기준 등
  • Tags: 태그 구성
    • 태그를 구성하는 것도 좋겠지만, 활용 빈도 수치화해서 넣어도 좋을 것 같음
  • Glossary Terms: 용어 사전
    • 필드의 값들을 한글화 하거나, 범위를 적기에 적합할 것 같음
    • ex) year 필드의 경우, 측정 범위(2020 ~ 2023)을 기입

 

 

다음은 Documentation 페이지다.

 

Add Documentation을 클릭하면 MarkDown을 활용하여 내용을 기입할 수 있는 구조다.

 

위 페이지에 대한 활용 아이디어는 다음과 같다.

  • 어떤 로직으로 테이블의 데이터가 쌓이는지?
  • 테이블을 보기 전에 알아야할 서비스적 배경지식
  • 자주 활용하는 조건(쿼리 예시)
  • 테이블의 활용 사례 (대시보드 링크, Add Link 버튼 활용)

 

그 외에 Lineage는 테이블간 연관관계(join 등)를 나타낼 수 있는 페이지다.

목적이나 조건에 따라 join을 거는 기준이 달라질 수 있기 때문에 주의해서 활용해야할 것 같다.

 


느낀 점

일단 UI가 깔끔해서 접근 허들이 낮은 것 같아 좋다.

 

누구나 친근하게 원하는 데이터를 찾아볼 수 있으며,
예시까지 있다면 사내 데이터 활용 문화에 좋은 영향을 끼칠 수 있을 것 같다.

 

하지만, 그 전에 테이블에 대한 정보가 수기로 입력되어야 한다는 단점이 존재한다.

물론 새롭게 추가되는 테이블이나 업데이트되는 스키마 구조도 말이다.

 

그래도 자주 질문이 들어오는 테이블에 대한 정보부터 채운다면 점점 리소스가 줄어들지 않을까?

 

 

반응형
Comments