데이터 카탈로그 구축 완전 가이드: 흩어진 데이터를 찾을 수 있게 만들기

데이터가 늘어날수록 “우리 회사에 어떤 데이터가 있는지” 아무도 모르는 상황이 발생한다. 분석가는 같은 지표를 매번 새로 정의하고, 데이터 엔지니어는 어떤 테이블이 실제로 쓰이는지 파악하지 못한 채 파이프라인을 운영한다. 이런 발견성(discoverability) 부재는 중복 작업과 잘못된 의사결정의 주된 원인이 된다.

왜 데이터 카탈로그가 필요한가

데이터 카탈로그는 조직이 보유한 데이터 자산의 메타데이터를 한곳에 모아 검색 가능하게 만든 시스템이다. 단순한 테이블 목록이 아니라, 각 데이터가 무엇을 의미하고 어디서 왔으며 누가 책임지는지를 담은 “데이터의 지도”에 가깝다. 카탈로그가 없으면 신규 입사자는 데이터 위치를 파악하는 데만 몇 주를 소모한다.

특히 규제 환경에서는 개인정보가 어느 테이블에 저장되어 있는지 즉시 답할 수 있어야 한다. 카탈로그는 민감 데이터 분류와 매핑의 기반이 되며, 감사 대응 시간을 획기적으로 단축시킨다.

카탈로그 핵심 구성 요소

기술 메타데이터: 테이블·컬럼 스키마, 데이터 타입, 파티션 구조, 저장 위치
비즈니스 메타데이터: 용어집(glossary) 정의, 비즈니스 오너, 도메인 분류
운영 메타데이터: 최종 갱신 시각, 행 수, 쿼리 빈도, 데이터 신선도
거버넌스 메타데이터: 민감도 등급, 보존 기간, 접근 정책

구축 절차

구축은 자동 수집부터 시작한다. 데이터 소스(웨어하우스, 데이터 레이크, BI 도구)에 커넥터를 연결해 기술 메타데이터를 크롤링한다. DataHub, OpenMetadata, Amundsen 같은 오픈소스나 상용 솔루션이 이 단계를 자동화한다. 핵심은 수동 입력을 최소화하고 메타데이터를 소스에서 자동으로 동기화하는 것이다.

데이터 소스 인벤토리 작성 및 우선순위 지정
커넥터 연결로 기술 메타데이터 자동 수집
비즈니스 용어집 정의 및 핵심 자산에 매핑
데이터 오너십 할당과 검색 가능성 검증
사용량 통계 기반 인기 자산 표시(popularity ranking)

카탈로그의 가치는 등록된 자산 수가 아니라 “검색 후 실제로 사용되는 비율”로 측정해야 한다.

운영과 정착

카탈로그는 구축보다 정착이 어렵다. 메타데이터가 낡으면 신뢰를 잃고 아무도 쓰지 않게 된다. 따라서 데이터 오너에게 용어집 큐레이션 책임을 명확히 부여하고, 신규 데이터셋 등록을 배포 파이프라인에 포함시켜야 한다. 분기마다 메타데이터 완성도 지표(오너 지정률, 설명 작성률, 분류 적용률)를 점검하는 것이 좋다.

또한 카탈로그를 단독 도구가 아닌 데이터 워크플로의 진입점으로 만들어야 한다. 분석 요청, 접근 권한 신청, 데이터 품질 이슈 제보가 모두 카탈로그에서 시작되도록 통합하면 사용자가 자연스럽게 모인다.

정리

데이터 카탈로그는 발견성 문제를 해결하는 거버넌스의 출발점이다. 자동 수집으로 기술 메타데이터를 확보하고, 비즈니스 맥락과 오너십을 더해 신뢰를 쌓으며, 운영 지표로 품질을 유지하는 것이 핵심이다. 처음부터 전체를 덮으려 하지 말고 핵심 도메인부터 시작해 점진적으로 확장하는 접근을 권한다.

데이터 카탈로그 구축 완전 가이드: 흩어진 데이터를 찾을 수 있게 만들기

왜 데이터 카탈로그가 필요한가

카탈로그 핵심 구성 요소

구축 절차

운영과 정착

정리

데이터 거버넌스에서 이어 읽기

데이터 품질 SLA 설계하기: 신뢰할 수 있는 데이터 약속의 기술

메타데이터 관리 전략: 데이터를 데이터답게 만드는 보이지 않는 인프라

데이터 마스킹과 보안: 운영 데이터를 안전하게 활용하는 실무 기법