“이 대시보드 숫자 맞아요?”라는 질문이 반복된다면 데이터 품질에 대한 공식 약속이 없다는 신호다. 데이터 품질 SLA(Service Level Agreement)는 데이터 공급자가 소비자에게 보장하는 품질 수준을 명문화한 계약이다. 이 약속이 없으면 품질 책임은 항상 모호하게 흩어진다.
SLA가 해결하는 리스크
품질 SLA가 없으면 세 가지 문제가 발생한다. 첫째, 소비자는 데이터를 어디까지 믿어야 할지 모른다. 둘째, 장애가 생겨도 누가 언제까지 고쳐야 하는지 합의가 없다. 셋째, 품질 투자에 대한 우선순위를 정할 근거가 없다. SLA는 이 모호함을 측정 가능한 약속으로 바꾼다.
품질 차원 정의
SLA를 쓰기 전에 무엇을 측정할지 정해야 한다. 데이터 품질은 일반적으로 다음 차원으로 분해된다.
| 차원 | 의미 | 지표 예시 |
|---|---|---|
| 완전성 | 필수 값의 누락 여부 | NULL 비율 < 1% |
| 정확성 | 실제 값과의 일치 | 검증 규칙 통과율 > 99% |
| 신선도 | 데이터 갱신 지연 | 매일 09:00 이전 적재 |
| 유일성 | 중복 레코드 부재 | 중복률 < 0.1% |
| 일관성 | 시스템 간 값 정합 | 교차 검증 일치율 100% |
SLA·SLO·SLI 구분
- SLI(지표): 실제 측정값, 예를 들어 “오늘 적재 지연 시간 12분”
- SLO(목표): 달성하려는 내부 목표, 예를 들어 “적재 지연 30분 이내 99.5%”
- SLA(약속): 위반 시 책임이 따르는 외부 계약, 보통 SLO보다 느슨하게 설정
SLA는 항상 SLO보다 여유를 둔다. 내부 목표를 99.5%로 잡았다면 대외 약속은 99%로 설정해 안전 마진을 확보한다. 이 마진이 운영팀의 숨 쉴 공간이 된다.
위반 대응과 운영
SLA의 핵심은 위반 시 무엇이 일어나는가다. 신선도 SLA가 깨지면 자동으로 대시보드에 “데이터 지연” 배너가 뜨고, 담당 온콜에게 알림이 가며, 원인 분석 보고가 의무화되는 식으로 절차를 정해야 한다. 에러 버짓(error budget) 개념을 도입해 월간 허용 위반 횟수를 정하고, 이를 초과하면 신규 기능 개발을 멈추고 안정화에 집중하는 정책도 효과적이다.
측정되지 않는 품질은 관리되지 않는다. SLA는 품질을 추상적 가치에서 운영 가능한 숫자로 전환한다.
정리
데이터 품질 SLA는 공급자와 소비자 간 신뢰를 측정 가능하게 만드는 도구다. 핵심 데이터셋부터 시작해 품질 차원을 정의하고, SLI·SLO·SLA를 분리하며, 위반 대응 절차를 자동화하라. 모든 데이터에 SLA를 붙이려 하지 말고 비즈니스 임팩트가 큰 자산에 집중하는 것이 현실적이다.



