Tag: 모델평가

  • LLM 모델 평가, 정확도만 보면 안 되는 이유와 실전 지표 설계

    LLM 모델 평가, 정확도만 보면 안 되는 이유와 실전 지표 설계

    LLM 기반 기능을 출시하기 전 가장 자주 생략되는 단계가 평가입니다. “데모에서 잘 되니까 괜찮겠지”라는 판단은 운영에서 반드시 깨집니다. 이 글에서는 생성형 작업에 맞는 평가 지표를 어떻게 설계하는지 실전 관점에서 정리합니다.

    왜 정확도 하나로는 부족한가

    분류 문제는 정답이 명확해 정확도로 측정됩니다. 그러나 요약·답변·생성 작업은 정답이 하나가 아니며, 표현이 달라도 옳을 수 있습니다. 단순 문자열 일치율로 측정하면 좋은 답을 틀렸다고 깎고, 그럴듯한 환각을 맞았다고 인정하는 일이 벌어집니다.

    작업 유형별 핵심 지표

    • RAG 답변: 충실성(근거 일치), 관련성, 출처 정확성
    • 요약: 사실 보존율, 누락률, 간결성
    • 검색 단계: 적중률(recall@k), 정밀도, MRR
    • 분류: 정확도, F1, 혼동 행렬

    특히 RAG에서는 검색 단계와 생성 단계를 분리해 평가해야 합니다. 답이 틀렸을 때 검색이 문맥을 못 가져온 것인지, 문맥은 좋은데 생성이 틀린 것인지 구분해야 고칠 곳을 알 수 있기 때문입니다.

    LLM-as-judge 활용

    사람이 매번 채점하기는 비쌉니다. 그래서 강력한 LLM을 채점자로 쓰는 방법이 널리 쓰입니다. 다만 채점 기준을 명확한 루브릭으로 제시하고, 0~5점 같은 척도와 판단 근거를 함께 출력하게 해야 신뢰할 수 있습니다. 채점자 모델의 편향(긴 답을 선호 등)을 인지하고 보정하는 것도 중요합니다.

    판정 기준:
    - 충실성(0-5): 답이 제공된 문맥에만 근거하는가
    - 관련성(0-5): 질문에 직접 답하는가
    출력: {"faithfulness": n, "relevance": n, "reason": "..."}

    평가셋 만들기

    완벽한 대규모 평가셋이 없어도 괜찮습니다. 실제 사용자 질문 50~100개와 기대 답변·근거를 정리한 작은 골든셋만으로도 회귀 테스트가 가능합니다. 프롬프트나 모델을 바꿀 때마다 이 셋으로 점수를 비교하면 “개선했다고 믿었는데 실제로는 나빠진” 상황을 막을 수 있습니다.

    측정할 수 없으면 개선할 수 없습니다. 작더라도 고정된 평가셋과 자동 채점 파이프라인을 갖추는 것이 LLM 제품 품질 관리의 출발점입니다.

    정리

    평가는 작업 유형에 맞는 지표를 고르는 것에서 시작합니다. RAG는 검색과 생성을 분리해 측정하고, 생성 품질은 루브릭 기반 LLM-as-judge로 자동화하며, 작은 골든셋으로 회귀를 막으세요. 평가 체계가 갖춰지면 그제야 개선이 과학이 됩니다.

  • 중견 제조기업의 생성형 AI 도입기: 6개월간 무엇을 배웠나

    중견 제조기업의 생성형 AI 도입기: 6개월간 무엇을 배웠나

    생성형 AI 도입은 기술보다 조직과 데이터 문제에서 더 많이 막힙니다. 이 글은 한 중견 제조기업이 사내 문서 검색 챗봇을 도입하며 겪은 6개월의 여정을 정리한 사례 연구입니다. 특정 제품 이야기가 아니라, 같은 길을 갈 팀이 참고할 만한 의사결정과 교훈에 초점을 둡니다.

    출발점: 무엇이 문제였나

    이 기업은 수천 건의 작업 표준서와 설비 매뉴얼이 여러 시스템에 흩어져 있었습니다. 현장 직원이 필요한 절차를 찾는 데 평균 15분 이상 걸렸고, 베테랑의 암묵지가 문서화되지 않아 퇴직과 함께 사라지는 문제가 컸습니다. 목표는 “질문하면 출처와 함께 답하는 사내 챗봇”이었습니다.

    1~2개월차: 데이터의 벽

    가장 큰 난관은 모델이 아니라 데이터였습니다. 스캔된 PDF, 손글씨 메모, 버전이 뒤섞인 문서가 많아 그대로 인덱싱하면 검색 품질이 형편없었습니다. 결국 전체 일정의 절반 이상을 문서 정제와 메타데이터 정리에 썼습니다.

    교훈 1: 생성형 AI 프로젝트의 성패는 모델 선택이 아니라 데이터 준비에서 갈린다. 데이터 정제 공수를 일정의 절반으로 잡아라.

    3~4개월차: RAG 구축과 평가

    RAG 파이프라인을 구축한 뒤, 현장 질문 80개로 골든셋을 만들어 검색 적중률과 답변 충실성을 측정했습니다. 초기 적중률은 60% 수준이었는데, 청킹을 섹션 기반으로 바꾸고 하이브리드 검색을 도입하자 85%까지 올랐습니다. 측정이 없었다면 무엇이 효과적인지 알 수 없었을 것입니다.

    • 초기: 고정 청킹 + 벡터 검색, 적중률 60%
    • 개선: 섹션 청킹 + 하이브리드 검색, 적중률 85%
    • 마무리: 리랭킹 추가로 답변 충실성 추가 향상

    5~6개월차: 현장 도입과 저항

    기술이 완성돼도 현장이 쓰지 않으면 의미가 없습니다. 초기에는 “답이 틀릴까 봐 못 믿겠다”는 불신이 컸습니다. 모든 답변에 출처 문서와 페이지를 함께 보여주고, 베테랑 직원이 직접 답변을 검수해 신뢰를 쌓자 사용률이 빠르게 올랐습니다.

    교훈 2: 신뢰는 정확도만으로 생기지 않는다. 출처 제시와 “모르면 모른다고 답하는” 정직함이 현장 채택을 좌우한다.

    성과와 남은 과제

    도입 후 절차 검색 시간은 평균 15분에서 2분 이내로 줄었고, 반복 문의가 감소했습니다. 다만 문서가 갱신될 때 인덱스를 최신으로 유지하는 운영 체계, 그리고 답변 품질을 지속 모니터링하는 책임자 지정이 남은 과제로 확인됐습니다.

    정리: 도입을 앞둔 팀에게

    작게 시작해 평가셋으로 검증하고, 출처와 정직함으로 신뢰를 쌓으세요. 데이터 준비를 과소평가하지 말고, 출시는 끝이 아니라 운영의 시작임을 기억하세요. 기술보다 데이터와 사람의 신뢰가 생성형 AI 도입의 진짜 변수입니다.