데이터 품질 논의는 흔히 분석 단계나 대시보드 단계에 집중되지만, 진짜 싸움은 파이프라인 가장 앞단인 적재(ingestion)에서 벌어집니다. 입구에서 오염된 데이터는 하류로 내려갈수록 정화 비용이 기하급수적으로 커집니다. 한 번 잘못 들어간 데이터는 수십 개 다운스트림 테이블을 오염시키고, 추적과 복구에 며칠이 걸립니다. 이 글에서는 적재 단계에서 품질을 지키기 위한 일곱 가지 실전 원칙을 사례와 함께 정리합니다.1. 입구에서 검증하라 가장 기본은 적재 시점의 스키마와 제약...
대시보드를 만드는 일은 차트를 배치하는 작업이 아니라, “이 화면을 보고 누가 어떤 결정을 내려야 하는가”라는 질문에 답하는 일입니다. 많은 대시보드가 30개가 넘는 지표를 한 화면에 욱여넣지만, 정작 사용자는 무엇을 봐야 할지 몰라 결국 엑셀로 돌아갑니다. 좋은 대시보드는 화면을 켠 지 5초 안에 “지금 정상인가, 아닌가”를 판단하게 해야 합니다.이 글에서는 실무에서 검증된 7가지 설계 원칙을 다룹니다. 핵심은 정보의 양이 아니라...
A/B 테스트는 “느낌” 대신 “증거”로 결정하기 위한 도구입니다. 하지만 현장에서는 표본도 부족한 상태에서 “전환율이 2.1%에서 2.3%로 올랐으니 B안 채택”이라고 결론 내리는 경우가 흔합니다. 이런 결정은 동전 던지기와 다를 바 없습니다. 제대로 된 실험 설계의 핵심은 시작하기 전에 멈출 조건을 정하는 것입니다.분석 질문과 가설 정의먼저 검증할 가설을 정량적으로 적습니다. 좋은 가설은 “가입...
지표가 많은 회사일수록 의사결정이 느립니다. 30개의 지표를 매주 보면 그 어떤 지표도 진지하게 보지 않게 됩니다. 핵심 지표(KPI)를 정의하는 일은 무엇을 측정할지 고르는 동시에 무엇을 무시할지 결정하는 일입니다. 이 글은 허영 지표를 가려내고 행동 가능한 지표를 선택하는 방법을 다룹니다.허영 지표 vs 행동 지표허영 지표(vanity metric)는 항상 우상향하며 기분은 좋게 하지만 행동을 바꾸지 못하는 숫자입니다. 대표적으로 누적 가입자 수, 누적 다운로드 수, 총...
“우리 서비스 리텐션이 40%입니다”라는 한 문장은 거의 아무것도 말해주지 않습니다. 1월에 가입한 사람과 6월에 가입한 사람을 한데 섞은 평균은, 제품이 좋아지고 있는지 나빠지고 있는지조차 숨깁니다. 코호트 분석은 사용자를 가입 시점별로 묶어 시간에 따른 행동 변화를 추적하는 기법입니다.분석 질문 정의코호트 분석으로 답하려는 질문은 보통 이렇습니다. “우리가 최근에 한 개선이 신규 사용자의 정착에 실제로 효과가 있었는가?” 이...