Tag: 코호트분석

  • 코호트 분석과 리텐션: 신규 사용자가 왜 떠나는지 추적하는 법

    코호트 분석과 리텐션: 신규 사용자가 왜 떠나는지 추적하는 법

    “우리 서비스 리텐션이 40%입니다”라는 한 문장은 거의 아무것도 말해주지 않습니다. 1월에 가입한 사람과 6월에 가입한 사람을 한데 섞은 평균은, 제품이 좋아지고 있는지 나빠지고 있는지조차 숨깁니다. 코호트 분석은 사용자를 가입 시점별로 묶어 시간에 따른 행동 변화를 추적하는 기법입니다.

    분석 질문 정의

    코호트 분석으로 답하려는 질문은 보통 이렇습니다. “우리가 최근에 한 개선이 신규 사용자의 정착에 실제로 효과가 있었는가?” 이 질문에 답하려면 가입 월별로 그룹을 나누고, 각 그룹이 가입 후 1주, 2주, 4주, 8주 뒤 얼마나 남아 있는지를 표로 만듭니다.

    리텐션 표 만들기

    가입 코호트1주4주8주
    3월 가입100%32%21%
    4월 가입100%35%24%
    5월 가입(온보딩 개선 후)100%41%30%

    이 표를 세로로 읽으면 시간에 따라 제품이 개선되는지 보입니다. 5월 코호트의 4주 리텐션이 41%로 뛴 것은 온보딩 개선이 효과가 있었다는 강한 신호입니다. 가로로 읽으면 한 코호트가 시간에 따라 어떻게 이탈하는지 보입니다.

    리텐션 곡선의 모양 읽기

    • 계속 0으로 떨어지는 곡선: 제품-시장 적합성 부족, 근본 문제
    • 처음 급락 후 평평해지는 곡선(스마일): 핵심 사용자층 확보, 건강한 신호
    • 평평한 수준이 점점 올라가는 곡선: 이상적, 제품이 점점 끈끈해짐

    가장 주목할 지점은 곡선이 평평해지는 “안정 리텐션” 구간입니다. 이 값이 0보다 확실히 크면 비즈니스가 지속 가능하다는 뜻입니다.

    세그먼트로 더 깊이 파기

    전체 코호트를 다시 유입 채널, 첫날 행동, 요금제로 쪼개면 개선 지점이 드러납니다. 예를 들어 “가입 첫날 친구 3명 이상을 초대한 사용자”의 8주 리텐션이 55%인데 그렇지 않은 사용자는 12%라면, 온보딩에서 초대를 유도하는 것이 핵심 레버임을 알 수 있습니다. 이런 “아하 모먼트” 행동을 찾는 것이 코호트 분석의 가장 큰 보상입니다.

    함정과 정리

    최근 코호트는 아직 충분한 시간이 지나지 않아 데이터가 미완성이라는 점을 주의해야 합니다. 5월 코호트의 8주 리텐션은 아직 관측 기간이 부족할 수 있습니다. 또한 코호트 크기가 너무 작으면(수십 명) 변동이 커서 신뢰하기 어렵습니다. 코호트 분석은 평균이라는 거짓 위안을 걷어내고, 제품이 실제로 나아지고 있는지를 정직하게 보여주는 가장 강력한 도구입니다.

  • 지표가 거짓말할 때: 거짓 상관과 심슨의 역설 피하는 법

    지표가 거짓말할 때: 거짓 상관과 심슨의 역설 피하는 법

    데이터는 객관적이지만 데이터 해석은 그렇지 않습니다. 같은 숫자에서 정반대의 결론을 끌어내는 일이 흔하며, 그 원인은 대개 통계적 함정입니다. 이 글은 실무에서 가장 자주 사람을 속이는 세 가지 함정을 사례로 다루고, 지표를 믿기 전 점검할 체크리스트를 제시합니다.

    함정 1: 상관을 인과로 착각

    아이스크림 판매량과 익사 사고는 강하게 상관합니다. 하지만 아이스크림이 익사를 일으키지 않습니다. 둘 다 “여름 더위”라는 숨은 변수의 결과일 뿐입니다. 마케팅에서 “이메일을 연 사용자가 구매를 더 많이 했으니 이메일이 매출을 올린다”는 주장도 같은 오류입니다. 원래 관심이 많은 사용자가 이메일도 열고 구매도 한 것일 수 있습니다. 인과를 주장하려면 무작위 통제 실험(A/B 테스트)이 필요합니다.

    함정 2: 평균의 함정

    “평균 세션 시간 8분”이라는 지표는 사용자 대부분이 1분 만에 나가고 소수가 1시간씩 머무는 분포를 가립니다. 평균은 극단값에 휘둘립니다. 중앙값과 분포(히스토그램)를 함께 보세요. 객단가 평균이 5만 원인데 중앙값이 2만 원이라면, 소수의 고액 구매자가 평균을 끌어올린 것이고 대부분의 고객은 2만 원짜리 고객입니다. 이 차이가 전략을 바꿉니다.

    함정 3: 심슨의 역설

    전체에서는 A안이 좋아 보이는데, 모든 세부 그룹에서는 B안이 좋은 모순이 일어날 수 있습니다.

    그룹A안 전환율B안 전환율
    신규 사용자5% (100명)7% (900명)
    기존 사용자30% (900명)35% (100명)
    전체27.5%9.8%

    각 그룹에서는 B안이 이기지만 전체로 합치면 A안이 이깁니다. B안에 전환율이 낮은 신규 사용자가 몰려서 생긴 착시입니다. 데이터를 합치기 전에 그룹 구성이 다른지 반드시 확인해야 합니다.

    신뢰성 점검 체크리스트

    • 이 상관에 숨은 공통 원인은 없는가
    • 평균만 보고 있지 않은가, 분포와 중앙값은 어떤가
    • 세그먼트별로 쪼개면 결론이 뒤집히지 않는가
    • 표본이 충분한가, 우연으로 설명 가능한 크기는 아닌가
    • 지표 정의가 측정 시점·기간에 따라 일관적인가

    숫자는 거짓말을 하지 않지만, 거짓말쟁이는 숫자를 쓴다.

    정리

    지표를 믿기 전에 항상 의심하세요. 상관과 인과를 구분하고, 평균 뒤의 분포를 보고, 세그먼트로 쪼개 역설을 확인하는 습관이 분석가의 신뢰성을 만듭니다. 결론이 너무 깔끔하게 떨어진다면, 그것이 바로 한 번 더 의심할 신호입니다.