생성형 AI 도입은 기술보다 조직과 데이터 문제에서 더 많이 막힙니다. 이 글은 한 중견 제조기업이 사내 문서 검색 챗봇을 도입하며 겪은 6개월의 여정을 정리한 사례 연구입니다. 특정 제품 이야기가 아니라, 같은 길을 갈 팀이 참고할 만한 의사결정과 교훈에 초점을 둡니다.
출발점: 무엇이 문제였나
이 기업은 수천 건의 작업 표준서와 설비 매뉴얼이 여러 시스템에 흩어져 있었습니다. 현장 직원이 필요한 절차를 찾는 데 평균 15분 이상 걸렸고, 베테랑의 암묵지가 문서화되지 않아 퇴직과 함께 사라지는 문제가 컸습니다. 목표는 “질문하면 출처와 함께 답하는 사내 챗봇”이었습니다.
1~2개월차: 데이터의 벽
가장 큰 난관은 모델이 아니라 데이터였습니다. 스캔된 PDF, 손글씨 메모, 버전이 뒤섞인 문서가 많아 그대로 인덱싱하면 검색 품질이 형편없었습니다. 결국 전체 일정의 절반 이상을 문서 정제와 메타데이터 정리에 썼습니다.
교훈 1: 생성형 AI 프로젝트의 성패는 모델 선택이 아니라 데이터 준비에서 갈린다. 데이터 정제 공수를 일정의 절반으로 잡아라.
3~4개월차: RAG 구축과 평가
RAG 파이프라인을 구축한 뒤, 현장 질문 80개로 골든셋을 만들어 검색 적중률과 답변 충실성을 측정했습니다. 초기 적중률은 60% 수준이었는데, 청킹을 섹션 기반으로 바꾸고 하이브리드 검색을 도입하자 85%까지 올랐습니다. 측정이 없었다면 무엇이 효과적인지 알 수 없었을 것입니다.
- 초기: 고정 청킹 + 벡터 검색, 적중률 60%
- 개선: 섹션 청킹 + 하이브리드 검색, 적중률 85%
- 마무리: 리랭킹 추가로 답변 충실성 추가 향상
5~6개월차: 현장 도입과 저항
기술이 완성돼도 현장이 쓰지 않으면 의미가 없습니다. 초기에는 “답이 틀릴까 봐 못 믿겠다”는 불신이 컸습니다. 모든 답변에 출처 문서와 페이지를 함께 보여주고, 베테랑 직원이 직접 답변을 검수해 신뢰를 쌓자 사용률이 빠르게 올랐습니다.
교훈 2: 신뢰는 정확도만으로 생기지 않는다. 출처 제시와 “모르면 모른다고 답하는” 정직함이 현장 채택을 좌우한다.
성과와 남은 과제
도입 후 절차 검색 시간은 평균 15분에서 2분 이내로 줄었고, 반복 문의가 감소했습니다. 다만 문서가 갱신될 때 인덱스를 최신으로 유지하는 운영 체계, 그리고 답변 품질을 지속 모니터링하는 책임자 지정이 남은 과제로 확인됐습니다.
정리: 도입을 앞둔 팀에게
작게 시작해 평가셋으로 검증하고, 출처와 정직함으로 신뢰를 쌓으세요. 데이터 준비를 과소평가하지 말고, 출시는 끝이 아니라 운영의 시작임을 기억하세요. 기술보다 데이터와 사람의 신뢰가 생성형 AI 도입의 진짜 변수입니다.