Tag: A/B테스트

  • A/B 테스트 설계 제대로 하기: 표본 크기부터 통계적 유의성까지

    A/B 테스트 설계 제대로 하기: 표본 크기부터 통계적 유의성까지

    A/B 테스트는 “느낌” 대신 “증거”로 결정하기 위한 도구입니다. 하지만 현장에서는 표본도 부족한 상태에서 “전환율이 2.1%에서 2.3%로 올랐으니 B안 채택”이라고 결론 내리는 경우가 흔합니다. 이런 결정은 동전 던지기와 다를 바 없습니다. 제대로 된 실험 설계의 핵심은 시작하기 전에 멈출 조건을 정하는 것입니다.

    분석 질문과 가설 정의

    먼저 검증할 가설을 정량적으로 적습니다. 좋은 가설은 “가입 버튼 문구를 바꾸면 가입 전환율이 오를 것이다”가 아니라 “가입 버튼 문구를 ‘무료로 시작하기’로 바꾸면 가입 전환율이 현재 5.0%에서 5.5% 이상(상대 10% 개선)으로 오를 것이다”입니다. 기대 효과 크기(MDE, 최소 검출 효과)를 명시해야 표본 크기를 계산할 수 있습니다.

    표본 크기 계산

    표본 크기는 네 가지 값으로 결정됩니다. 기준 전환율(5%), 검출하려는 최소 효과(상대 10%), 유의수준 알파(보통 0.05), 검정력(보통 0.8)입니다. 이 조건에서 한 그룹당 약 31,000명이 필요합니다. 기준 전환율이 낮을수록, 검출하려는 효과가 작을수록 필요한 표본은 급격히 늘어납니다.

    • 기준 전환율이 낮으면(예: 1%) 표본은 수십만 단위로 커진다
    • 효과를 작게 잡을수록(상대 5%) 표본은 약 4배로 증가한다
    • 일일 트래픽으로 며칠이 걸리는지 미리 계산해 실험 기간을 확정한다

    실행 단계

    사용자를 무작위로 A/B 그룹에 배정하되, 같은 사용자가 항상 같은 그룹에 들어가도록 사용자 ID 해시로 고정합니다. 실험 기간 동안에는 미리 정한 표본에 도달할 때까지 결과를 들여다보고 멈추는 “피킹(peeking)”을 하지 않습니다. 매일 결과를 보고 유의해지는 순간 멈추면 거짓 양성 비율이 5%가 아니라 20% 이상으로 치솟습니다.

    해석과 함정

    p값이 0.03이라는 것은 “B안이 옳을 확률 97%”가 아닙니다. “A와 B가 차이 없다고 가정했을 때, 이 정도 이상의 차이가 우연히 나올 확률이 3%”라는 뜻입니다. 또한 신뢰구간을 함께 보세요. 전환율 차이가 +0.5%p이고 95% 신뢰구간이 [-0.1%p, +1.1%p]라면 0을 포함하므로 유의하지 않습니다.

    유의하지 않다는 것은 “효과가 없다”가 아니라 “이 표본으로는 효과를 확인하지 못했다”는 뜻입니다.

    정리

    신뢰할 수 있는 A/B 테스트의 조건은 명확합니다. 정량적 가설과 MDE를 먼저 정하고, 표본 크기와 기간을 사전에 계산하며, 중간에 결과를 훔쳐보지 않고, p값과 신뢰구간을 올바로 해석하는 것입니다. 통계적 유의성과 실질적 중요성(비즈니스 임팩트)을 분리해서 판단하면, 실험은 의사결정을 가속하는 강력한 자산이 됩니다.

  • 지표가 거짓말할 때: 거짓 상관과 심슨의 역설 피하는 법

    지표가 거짓말할 때: 거짓 상관과 심슨의 역설 피하는 법

    데이터는 객관적이지만 데이터 해석은 그렇지 않습니다. 같은 숫자에서 정반대의 결론을 끌어내는 일이 흔하며, 그 원인은 대개 통계적 함정입니다. 이 글은 실무에서 가장 자주 사람을 속이는 세 가지 함정을 사례로 다루고, 지표를 믿기 전 점검할 체크리스트를 제시합니다.

    함정 1: 상관을 인과로 착각

    아이스크림 판매량과 익사 사고는 강하게 상관합니다. 하지만 아이스크림이 익사를 일으키지 않습니다. 둘 다 “여름 더위”라는 숨은 변수의 결과일 뿐입니다. 마케팅에서 “이메일을 연 사용자가 구매를 더 많이 했으니 이메일이 매출을 올린다”는 주장도 같은 오류입니다. 원래 관심이 많은 사용자가 이메일도 열고 구매도 한 것일 수 있습니다. 인과를 주장하려면 무작위 통제 실험(A/B 테스트)이 필요합니다.

    함정 2: 평균의 함정

    “평균 세션 시간 8분”이라는 지표는 사용자 대부분이 1분 만에 나가고 소수가 1시간씩 머무는 분포를 가립니다. 평균은 극단값에 휘둘립니다. 중앙값과 분포(히스토그램)를 함께 보세요. 객단가 평균이 5만 원인데 중앙값이 2만 원이라면, 소수의 고액 구매자가 평균을 끌어올린 것이고 대부분의 고객은 2만 원짜리 고객입니다. 이 차이가 전략을 바꿉니다.

    함정 3: 심슨의 역설

    전체에서는 A안이 좋아 보이는데, 모든 세부 그룹에서는 B안이 좋은 모순이 일어날 수 있습니다.

    그룹A안 전환율B안 전환율
    신규 사용자5% (100명)7% (900명)
    기존 사용자30% (900명)35% (100명)
    전체27.5%9.8%

    각 그룹에서는 B안이 이기지만 전체로 합치면 A안이 이깁니다. B안에 전환율이 낮은 신규 사용자가 몰려서 생긴 착시입니다. 데이터를 합치기 전에 그룹 구성이 다른지 반드시 확인해야 합니다.

    신뢰성 점검 체크리스트

    • 이 상관에 숨은 공통 원인은 없는가
    • 평균만 보고 있지 않은가, 분포와 중앙값은 어떤가
    • 세그먼트별로 쪼개면 결론이 뒤집히지 않는가
    • 표본이 충분한가, 우연으로 설명 가능한 크기는 아닌가
    • 지표 정의가 측정 시점·기간에 따라 일관적인가

    숫자는 거짓말을 하지 않지만, 거짓말쟁이는 숫자를 쓴다.

    정리

    지표를 믿기 전에 항상 의심하세요. 상관과 인과를 구분하고, 평균 뒤의 분포를 보고, 세그먼트로 쪼개 역설을 확인하는 습관이 분석가의 신뢰성을 만듭니다. 결론이 너무 깔끔하게 떨어진다면, 그것이 바로 한 번 더 의심할 신호입니다.