Tag: 지표설계

  • A/B 테스트 설계 제대로 하기: 표본 크기부터 통계적 유의성까지

    A/B 테스트 설계 제대로 하기: 표본 크기부터 통계적 유의성까지

    A/B 테스트는 “느낌” 대신 “증거”로 결정하기 위한 도구입니다. 하지만 현장에서는 표본도 부족한 상태에서 “전환율이 2.1%에서 2.3%로 올랐으니 B안 채택”이라고 결론 내리는 경우가 흔합니다. 이런 결정은 동전 던지기와 다를 바 없습니다. 제대로 된 실험 설계의 핵심은 시작하기 전에 멈출 조건을 정하는 것입니다.

    분석 질문과 가설 정의

    먼저 검증할 가설을 정량적으로 적습니다. 좋은 가설은 “가입 버튼 문구를 바꾸면 가입 전환율이 오를 것이다”가 아니라 “가입 버튼 문구를 ‘무료로 시작하기’로 바꾸면 가입 전환율이 현재 5.0%에서 5.5% 이상(상대 10% 개선)으로 오를 것이다”입니다. 기대 효과 크기(MDE, 최소 검출 효과)를 명시해야 표본 크기를 계산할 수 있습니다.

    표본 크기 계산

    표본 크기는 네 가지 값으로 결정됩니다. 기준 전환율(5%), 검출하려는 최소 효과(상대 10%), 유의수준 알파(보통 0.05), 검정력(보통 0.8)입니다. 이 조건에서 한 그룹당 약 31,000명이 필요합니다. 기준 전환율이 낮을수록, 검출하려는 효과가 작을수록 필요한 표본은 급격히 늘어납니다.

    • 기준 전환율이 낮으면(예: 1%) 표본은 수십만 단위로 커진다
    • 효과를 작게 잡을수록(상대 5%) 표본은 약 4배로 증가한다
    • 일일 트래픽으로 며칠이 걸리는지 미리 계산해 실험 기간을 확정한다

    실행 단계

    사용자를 무작위로 A/B 그룹에 배정하되, 같은 사용자가 항상 같은 그룹에 들어가도록 사용자 ID 해시로 고정합니다. 실험 기간 동안에는 미리 정한 표본에 도달할 때까지 결과를 들여다보고 멈추는 “피킹(peeking)”을 하지 않습니다. 매일 결과를 보고 유의해지는 순간 멈추면 거짓 양성 비율이 5%가 아니라 20% 이상으로 치솟습니다.

    해석과 함정

    p값이 0.03이라는 것은 “B안이 옳을 확률 97%”가 아닙니다. “A와 B가 차이 없다고 가정했을 때, 이 정도 이상의 차이가 우연히 나올 확률이 3%”라는 뜻입니다. 또한 신뢰구간을 함께 보세요. 전환율 차이가 +0.5%p이고 95% 신뢰구간이 [-0.1%p, +1.1%p]라면 0을 포함하므로 유의하지 않습니다.

    유의하지 않다는 것은 “효과가 없다”가 아니라 “이 표본으로는 효과를 확인하지 못했다”는 뜻입니다.

    정리

    신뢰할 수 있는 A/B 테스트의 조건은 명확합니다. 정량적 가설과 MDE를 먼저 정하고, 표본 크기와 기간을 사전에 계산하며, 중간에 결과를 훔쳐보지 않고, p값과 신뢰구간을 올바로 해석하는 것입니다. 통계적 유의성과 실질적 중요성(비즈니스 임팩트)을 분리해서 판단하면, 실험은 의사결정을 가속하는 강력한 자산이 됩니다.

  • 핵심 지표(KPI)를 정의하는 법: 허영 지표를 버리고 행동 지표를 잡아라

    핵심 지표(KPI)를 정의하는 법: 허영 지표를 버리고 행동 지표를 잡아라

    지표가 많은 회사일수록 의사결정이 느립니다. 30개의 지표를 매주 보면 그 어떤 지표도 진지하게 보지 않게 됩니다. 핵심 지표(KPI)를 정의하는 일은 무엇을 측정할지 고르는 동시에 무엇을 무시할지 결정하는 일입니다. 이 글은 허영 지표를 가려내고 행동 가능한 지표를 선택하는 방법을 다룹니다.

    허영 지표 vs 행동 지표

    허영 지표(vanity metric)는 항상 우상향하며 기분은 좋게 하지만 행동을 바꾸지 못하는 숫자입니다. 대표적으로 누적 가입자 수, 누적 다운로드 수, 총 페이지뷰가 있습니다. 누적 가입자는 절대 줄지 않기 때문에 어떤 결정에도 도움이 안 됩니다. 반면 행동 지표는 특정 기간 기준이고, 나빠질 수 있으며, 원인을 추적할 수 있습니다.

    • 허영: 누적 가입자 100만 명
    • 행동: 이번 주 활성 사용자(WAU) 4만 2천 명, 전주 대비 -3%
    • 행동: 신규 가입자의 7일 리텐션 28%

    좋은 KPI의 4가지 조건

    실무에서 KPI를 검증할 때 다음 네 가지를 확인합니다. 비율 또는 기간 기반인가(누적이 아닌가), 나빠질 수 있는가, 팀이 직접 영향을 줄 수 있는가, 그리고 비즈니스 성과와 인과적으로 연결되는가입니다. 네 가지를 모두 만족하지 못하면 그것은 보조 지표일 뿐 KPI가 아닙니다.

    북극성 지표 설계

    북극성 지표(North Star Metric)는 고객이 제품에서 얻는 핵심 가치를 하나의 숫자로 표현한 것입니다. 예를 들어 음악 스트리밍 서비스라면 “총 가입자”가 아니라 “주간 음악 청취 시간”이, 메신저라면 “보낸 메시지 수”가 적합합니다. 매출은 결과이지 가치 자체가 아니므로 북극성으로는 부적합한 경우가 많습니다.

    북극성 지표는 하위 동인(driver) 지표로 분해됩니다. “주간 청취 시간”은 “활성 사용자 수 x 사용자당 평균 세션 x 세션당 평균 청취 시간”으로 나뉘고, 각 팀은 자신이 책임지는 동인을 개선하면 됩니다.

    흔한 함정

    지표를 목표로 삼는 순간 그 지표는 조작 대상이 됩니다(굿하트의 법칙). “고객 응대 건수”를 KPI로 잡으면 상담원은 한 통화를 여러 건으로 쪼갭니다. 그래서 KPI는 항상 균형을 잡는 가드레일 지표와 짝지어야 합니다. 전환율을 올리려다 환불율이 오르지 않는지, 속도를 높이려다 품질이 떨어지지 않는지 함께 봅니다.

    측정 가능한 모든 것이 중요한 것은 아니고, 중요한 모든 것이 쉽게 측정되지는 않는다.

    정리

    좋은 KPI는 적고, 비율 기반이며, 나빠질 수 있고, 팀이 움직일 수 있는 숫자입니다. 북극성 지표 하나로 방향을 정렬하고, 동인 지표로 책임을 나누며, 가드레일 지표로 부작용을 감시하세요. 지표 목록을 줄이는 용기가 곧 데이터 기반 조직의 출발점입니다.

  • 코호트 분석과 리텐션: 신규 사용자가 왜 떠나는지 추적하는 법

    코호트 분석과 리텐션: 신규 사용자가 왜 떠나는지 추적하는 법

    “우리 서비스 리텐션이 40%입니다”라는 한 문장은 거의 아무것도 말해주지 않습니다. 1월에 가입한 사람과 6월에 가입한 사람을 한데 섞은 평균은, 제품이 좋아지고 있는지 나빠지고 있는지조차 숨깁니다. 코호트 분석은 사용자를 가입 시점별로 묶어 시간에 따른 행동 변화를 추적하는 기법입니다.

    분석 질문 정의

    코호트 분석으로 답하려는 질문은 보통 이렇습니다. “우리가 최근에 한 개선이 신규 사용자의 정착에 실제로 효과가 있었는가?” 이 질문에 답하려면 가입 월별로 그룹을 나누고, 각 그룹이 가입 후 1주, 2주, 4주, 8주 뒤 얼마나 남아 있는지를 표로 만듭니다.

    리텐션 표 만들기

    가입 코호트1주4주8주
    3월 가입100%32%21%
    4월 가입100%35%24%
    5월 가입(온보딩 개선 후)100%41%30%

    이 표를 세로로 읽으면 시간에 따라 제품이 개선되는지 보입니다. 5월 코호트의 4주 리텐션이 41%로 뛴 것은 온보딩 개선이 효과가 있었다는 강한 신호입니다. 가로로 읽으면 한 코호트가 시간에 따라 어떻게 이탈하는지 보입니다.

    리텐션 곡선의 모양 읽기

    • 계속 0으로 떨어지는 곡선: 제품-시장 적합성 부족, 근본 문제
    • 처음 급락 후 평평해지는 곡선(스마일): 핵심 사용자층 확보, 건강한 신호
    • 평평한 수준이 점점 올라가는 곡선: 이상적, 제품이 점점 끈끈해짐

    가장 주목할 지점은 곡선이 평평해지는 “안정 리텐션” 구간입니다. 이 값이 0보다 확실히 크면 비즈니스가 지속 가능하다는 뜻입니다.

    세그먼트로 더 깊이 파기

    전체 코호트를 다시 유입 채널, 첫날 행동, 요금제로 쪼개면 개선 지점이 드러납니다. 예를 들어 “가입 첫날 친구 3명 이상을 초대한 사용자”의 8주 리텐션이 55%인데 그렇지 않은 사용자는 12%라면, 온보딩에서 초대를 유도하는 것이 핵심 레버임을 알 수 있습니다. 이런 “아하 모먼트” 행동을 찾는 것이 코호트 분석의 가장 큰 보상입니다.

    함정과 정리

    최근 코호트는 아직 충분한 시간이 지나지 않아 데이터가 미완성이라는 점을 주의해야 합니다. 5월 코호트의 8주 리텐션은 아직 관측 기간이 부족할 수 있습니다. 또한 코호트 크기가 너무 작으면(수십 명) 변동이 커서 신뢰하기 어렵습니다. 코호트 분석은 평균이라는 거짓 위안을 걷어내고, 제품이 실제로 나아지고 있는지를 정직하게 보여주는 가장 강력한 도구입니다.

  • 퍼널 분석으로 이탈 지점 찾기: 전환율을 끌어올리는 진단법

    퍼널 분석으로 이탈 지점 찾기: 전환율을 끌어올리는 진단법

    전환율이 낮다는 것은 알지만, 정확히 어디서 사용자를 잃는지 모른다면 개선은 추측이 됩니다. 퍼널 분석은 사용자가 목표(보통 결제나 가입)에 이르는 여정을 단계로 쪼개고, 각 단계의 통과율을 측정해 가장 큰 누수 지점을 찾아내는 기법입니다.

    퍼널 단계 정의

    좋은 퍼널은 사용자의 실제 행동 순서를 반영합니다. 전자상거래라면 보통 다음과 같습니다. 상품 조회 → 장바구니 담기 → 결제 시작 → 배송지 입력 → 결제 완료. 각 단계는 명확한 이벤트로 측정 가능해야 하고, 순서가 있어야 합니다. 단계를 너무 잘게 쪼개면 분석이 복잡해지고, 너무 뭉치면 누수 지점을 못 찾으므로 4~6단계가 적절합니다.

    이탈률 계산과 해석

    단계사용자 수단계 통과율
    상품 조회100,000
    장바구니 담기40,00040%
    결제 시작24,00060%
    배송지 입력9,60040%
    결제 완료8,64090%

    전체 전환율은 8.64%지만, 핵심은 단계별 통과율입니다. 배송지 입력 단계의 통과율이 40%로 가장 낮습니다. 결제를 시작했는데 60%가 배송지 입력에서 떠난다면, 입력 폼이 너무 길거나, 회원가입을 강제하거나, 예상치 못한 배송비가 노출되는 등의 문제가 의심됩니다.

    개선 우선순위 정하기

    가장 통과율이 낮은 단계가 항상 1순위는 아닙니다. 영향력은 “해당 단계의 사용자 수 x 개선 가능 폭”으로 판단합니다. 통과율 40%인 배송지 단계를 50%로 올리면 결제 완료가 약 25% 증가하지만, 이미 90%인 마지막 단계는 아무리 개선해도 여지가 적습니다.

    • 누수가 가장 큰 절대 인원이 빠지는 단계를 우선한다
    • 개선 난이도(폼 단순화는 쉽고, 가격 정책 변경은 어렵다)를 함께 본다
    • 세그먼트별 퍼널(모바일 vs PC)을 비교해 특정 환경 문제를 찾는다

    흔한 함정

    퍼널은 한 세션 안의 선형 흐름을 가정하지만 현실의 사용자는 며칠에 걸쳐 돌아오고, 단계를 건너뛰기도 합니다. 분석 도구에서 “같은 세션 내 완료”인지 “7일 내 완료”인지 윈도우 설정을 반드시 확인하세요. 또한 시간 순서를 강제하지 않으면 결제를 먼저 하고 조회한 것처럼 집계되는 오류가 생깁니다.

    퍼널 분석은 “왜”를 알려주지 않습니다. “어디”를 알려줄 뿐입니다. 누수 지점을 찾았다면 세션 리플레이나 설문으로 원인을 파고들어야 합니다.

    정리

    퍼널을 사용자의 실제 행동에 맞춰 4~6단계로 정의하고, 단계별 통과율을 계산해 가장 큰 누수를 찾으세요. 영향력과 개선 난이도를 함께 보고 우선순위를 정한 뒤, 세그먼트로 쪼개 원인 가설을 세웁니다. 퍼널은 막연한 전환율을 행동 가능한 개선 과제로 바꾸는 출발점입니다.

  • BI 도구 비교: Tableau, Power BI, Looker를 언제 선택해야 하나

    BI 도구 비교: Tableau, Power BI, Looker를 언제 선택해야 하나

    “어떤 BI 도구를 써야 하나요?”라는 질문에는 정답이 없지만 잘못된 선택은 분명히 존재합니다. 도구는 팀의 데이터 성숙도, 인력 구성, 기존 인프라에 맞아야 합니다. 이 글은 Tableau, Power BI, Looker 세 가지를 데이터 모델링, 비용, 협업 관점에서 비교합니다.

    핵심 철학의 차이

    세 도구는 근본 접근이 다릅니다. Tableau는 분석가의 탐색적 시각화에 강하고, 드래그앤드롭으로 빠르게 차트를 만드는 데 최적화되어 있습니다. Power BI는 마이크로소프트 생태계(Excel, Azure, Teams)와의 통합과 가격 경쟁력이 강점입니다. Looker는 LookML이라는 코드로 지표 정의를 중앙화해, 모두가 같은 정의로 같은 숫자를 보게 하는 거버넌스에 강합니다.

    비교 표

    항목TableauPower BILooker
    강점시각화 자유도가격·MS 통합지표 거버넌스
    모델링추출/라이브DAX·Power QueryLookML(코드)
    학습 곡선중간낮음(엑셀 유사)높음(코드 필요)
    적합 팀분석가 중심MS 환경 중소조직데이터 엔지니어 보유 조직

    비용 구조의 함정

    표시된 1인당 월 구독료만 보면 안 됩니다. Power BI Pro는 1인당 비용이 낮지만 대용량 처리에는 Premium 용량이 추가로 필요합니다. Looker는 인프라 위에서 쿼리를 데이터 웨어हा우스로 직접 보내므로 BigQuery 같은 웨어하우스 쿼리 비용이 별도로 발생합니다. Tableau는 뷰어 라이선스와 크리에이터 라이선스 가격 차이가 커서 조직 구성에 따라 총비용이 크게 달라집니다.

    선택 기준 정리

    • 이미 Microsoft 365를 쓰는 중소 조직: Power BI가 비용·통합 면에서 유리
    • 분석가가 자유롭게 탐색하고 화려한 대시보드가 필요: Tableau
    • 여러 팀이 “매출” 정의를 두고 싸운 적 있고 데이터 엔지니어가 있다: Looker
    • 데이터 웨어하우스가 없는 단계: 도구보다 데이터 파이프라인부터 정비

    도구보다 중요한 것

    어떤 도구를 골라도 신뢰할 수 있는 데이터 소스와 합의된 지표 정의가 없으면 실패합니다. 흔한 실수는 도구를 먼저 사고 거버넌스를 나중에 고민하는 것입니다. “활성 사용자”의 정의가 팀마다 다르면 어떤 BI 도구도 그 혼란을 해결해주지 못합니다.

    도구는 문제를 더 빠르게 보여줄 뿐, 정의되지 않은 지표를 정의해주지는 않는다.

    정리

    Power BI는 비용과 통합, Tableau는 시각화 자유도, Looker는 거버넌스가 차별점입니다. 팀의 데이터 성숙도와 기존 생태계를 기준으로 고르되, 무엇보다 신뢰할 수 있는 데이터와 합의된 지표 정의를 먼저 갖추세요. 도구 선택은 그 다음 문제입니다.

  • 지표가 거짓말할 때: 거짓 상관과 심슨의 역설 피하는 법

    지표가 거짓말할 때: 거짓 상관과 심슨의 역설 피하는 법

    데이터는 객관적이지만 데이터 해석은 그렇지 않습니다. 같은 숫자에서 정반대의 결론을 끌어내는 일이 흔하며, 그 원인은 대개 통계적 함정입니다. 이 글은 실무에서 가장 자주 사람을 속이는 세 가지 함정을 사례로 다루고, 지표를 믿기 전 점검할 체크리스트를 제시합니다.

    함정 1: 상관을 인과로 착각

    아이스크림 판매량과 익사 사고는 강하게 상관합니다. 하지만 아이스크림이 익사를 일으키지 않습니다. 둘 다 “여름 더위”라는 숨은 변수의 결과일 뿐입니다. 마케팅에서 “이메일을 연 사용자가 구매를 더 많이 했으니 이메일이 매출을 올린다”는 주장도 같은 오류입니다. 원래 관심이 많은 사용자가 이메일도 열고 구매도 한 것일 수 있습니다. 인과를 주장하려면 무작위 통제 실험(A/B 테스트)이 필요합니다.

    함정 2: 평균의 함정

    “평균 세션 시간 8분”이라는 지표는 사용자 대부분이 1분 만에 나가고 소수가 1시간씩 머무는 분포를 가립니다. 평균은 극단값에 휘둘립니다. 중앙값과 분포(히스토그램)를 함께 보세요. 객단가 평균이 5만 원인데 중앙값이 2만 원이라면, 소수의 고액 구매자가 평균을 끌어올린 것이고 대부분의 고객은 2만 원짜리 고객입니다. 이 차이가 전략을 바꿉니다.

    함정 3: 심슨의 역설

    전체에서는 A안이 좋아 보이는데, 모든 세부 그룹에서는 B안이 좋은 모순이 일어날 수 있습니다.

    그룹A안 전환율B안 전환율
    신규 사용자5% (100명)7% (900명)
    기존 사용자30% (900명)35% (100명)
    전체27.5%9.8%

    각 그룹에서는 B안이 이기지만 전체로 합치면 A안이 이깁니다. B안에 전환율이 낮은 신규 사용자가 몰려서 생긴 착시입니다. 데이터를 합치기 전에 그룹 구성이 다른지 반드시 확인해야 합니다.

    신뢰성 점검 체크리스트

    • 이 상관에 숨은 공통 원인은 없는가
    • 평균만 보고 있지 않은가, 분포와 중앙값은 어떤가
    • 세그먼트별로 쪼개면 결론이 뒤집히지 않는가
    • 표본이 충분한가, 우연으로 설명 가능한 크기는 아닌가
    • 지표 정의가 측정 시점·기간에 따라 일관적인가

    숫자는 거짓말을 하지 않지만, 거짓말쟁이는 숫자를 쓴다.

    정리

    지표를 믿기 전에 항상 의심하세요. 상관과 인과를 구분하고, 평균 뒤의 분포를 보고, 세그먼트로 쪼개 역설을 확인하는 습관이 분석가의 신뢰성을 만듭니다. 결론이 너무 깔끔하게 떨어진다면, 그것이 바로 한 번 더 의심할 신호입니다.