A/B 테스트는 “느낌” 대신 “증거”로 결정하기 위한 도구입니다. 하지만 현장에서는 표본도 부족한 상태에서 “전환율이 2.1%에서 2.3%로 올랐으니 B안 채택”이라고 결론 내리는 경우가 흔합니다. 이런 결정은 동전 던지기와 다를 바 없습니다. 제대로 된 실험 설계의 핵심은 시작하기 전에 멈출 조건을 정하는 것입니다.
분석 질문과 가설 정의
먼저 검증할 가설을 정량적으로 적습니다. 좋은 가설은 “가입 버튼 문구를 바꾸면 가입 전환율이 오를 것이다”가 아니라 “가입 버튼 문구를 ‘무료로 시작하기’로 바꾸면 가입 전환율이 현재 5.0%에서 5.5% 이상(상대 10% 개선)으로 오를 것이다”입니다. 기대 효과 크기(MDE, 최소 검출 효과)를 명시해야 표본 크기를 계산할 수 있습니다.
표본 크기 계산
표본 크기는 네 가지 값으로 결정됩니다. 기준 전환율(5%), 검출하려는 최소 효과(상대 10%), 유의수준 알파(보통 0.05), 검정력(보통 0.8)입니다. 이 조건에서 한 그룹당 약 31,000명이 필요합니다. 기준 전환율이 낮을수록, 검출하려는 효과가 작을수록 필요한 표본은 급격히 늘어납니다.
- 기준 전환율이 낮으면(예: 1%) 표본은 수십만 단위로 커진다
- 효과를 작게 잡을수록(상대 5%) 표본은 약 4배로 증가한다
- 일일 트래픽으로 며칠이 걸리는지 미리 계산해 실험 기간을 확정한다
실행 단계
사용자를 무작위로 A/B 그룹에 배정하되, 같은 사용자가 항상 같은 그룹에 들어가도록 사용자 ID 해시로 고정합니다. 실험 기간 동안에는 미리 정한 표본에 도달할 때까지 결과를 들여다보고 멈추는 “피킹(peeking)”을 하지 않습니다. 매일 결과를 보고 유의해지는 순간 멈추면 거짓 양성 비율이 5%가 아니라 20% 이상으로 치솟습니다.
해석과 함정
p값이 0.03이라는 것은 “B안이 옳을 확률 97%”가 아닙니다. “A와 B가 차이 없다고 가정했을 때, 이 정도 이상의 차이가 우연히 나올 확률이 3%”라는 뜻입니다. 또한 신뢰구간을 함께 보세요. 전환율 차이가 +0.5%p이고 95% 신뢰구간이 [-0.1%p, +1.1%p]라면 0을 포함하므로 유의하지 않습니다.
유의하지 않다는 것은 “효과가 없다”가 아니라 “이 표본으로는 효과를 확인하지 못했다”는 뜻입니다.
정리
신뢰할 수 있는 A/B 테스트의 조건은 명확합니다. 정량적 가설과 MDE를 먼저 정하고, 표본 크기와 기간을 사전에 계산하며, 중간에 결과를 훔쳐보지 않고, p값과 신뢰구간을 올바로 해석하는 것입니다. 통계적 유의성과 실질적 중요성(비즈니스 임팩트)을 분리해서 판단하면, 실험은 의사결정을 가속하는 강력한 자산이 됩니다.










