중견 제조기업의 생성형 AI 도입기: 6개월간 무엇을 배웠나

중견 제조기업의 생성형 AI 도입기: 6개월간 무엇을 배웠나

생성형 AI 도입은 기술보다 조직과 데이터 문제에서 더 많이 막힙니다. 이 글은 한 중견 제조기업이 사내 문서 검색 챗봇을 도입하며 겪은 6개월의 여정을 정리한 사례 연구입니다. 특정 제품 이야기가 아니라, 같은 길을 갈 팀이 참고할 만한 의사결정과 교훈에 초점을 둡니다. 출발점: 무엇이 문제였나 이 기업은 수천 건의 작업 표준서와 설비 매뉴얼이 여러 시스템에 흩어져 있었습니다. 현장 직원이 필요한 절차를 찾는 데 평균 15분 이상 걸렸고, 베테랑의 암묵지가 문서화되지 않아...
레이크하우스 아키텍처 설계: 데이터 레이크와 웨어하우스를 하나로

레이크하우스 아키텍처 설계: 데이터 레이크와 웨어하우스를 하나로

데이터 조직이 일정 규모를 넘어서면 두 가지 인프라를 동시에 운영하는 비용에 직면합니다. 원천 로그와 비정형 데이터를 담는 데이터 레이크, 그리고 BI와 리포팅을 위한 데이터 웨어하우스입니다. 두 시스템 사이에서 데이터를 복제하다 보면 동일한 지표가 두 곳에서 다른 값을 내는 일이 흔합니다. 레이크하우스는 이 이중 구조를 단일 저장 계층으로 통합하려는 시도입니다. 이 글에서는 레이크하우스가 해결하려는 문제부터 테이블 포맷 선택, 계층 설계, 운영 시 마주치는 함정까지...
Kafka로 구축하는 실시간 스트리밍 파이프라인 입문

Kafka로 구축하는 실시간 스트리밍 파이프라인 입문

배치 처리는 분명 강력하지만, 사용자가 결제를 누른 순간 이상 거래를 탐지하거나, 재고가 떨어지는 즉시 알림을 보내야 하는 상황에서는 한계가 분명합니다. 데이터가 발생하는 즉시 흘려보내고 처리하는 스트리밍 파이프라인이 필요합니다. 그 중심에 가장 널리 쓰이는 분산 메시징 플랫폼 Apache Kafka가 있습니다. 이 글은 Kafka를 처음 접하는 엔지니어를 위해 핵심 개념과 토픽 설계, 그리고 첫 파이프라인 구성을 따라가며 설명합니다. 운영 단계에서 만나는 흔한 함정도 함께...
Airflow로 데이터 파이프라인 오케스트레이션 제대로 하기

Airflow로 데이터 파이프라인 오케스트레이션 제대로 하기

데이터 파이프라인이 십수 개를 넘어가면 cron과 셸 스크립트로는 더 이상 감당이 안 됩니다. 어떤 작업이 실패했는지, 무엇이 먼저 끝나야 다음이 도는지, 재실행은 어떻게 하는지를 사람이 일일이 추적해야 하기 때문입니다. Apache Airflow는 이 워크플로를 코드로 정의하고 의존성과 재시도를 자동으로 관리하는 오케스트레이터입니다. 이 글에서는 Airflow의 핵심 개념인 DAG와 태스크 의존성, 스케줄링 동작, 그리고 멱등성 있는 파이프라인을 만드는 운영 노하우를...
dbt로 데이터 변환 모델링하기: 분석 엔지니어링의 표준

dbt로 데이터 변환 모델링하기: 분석 엔지니어링의 표준

웨어하우스에 데이터를 적재한 뒤 그것을 분석 가능한 형태로 변환하는 일은 오랫동안 복잡한 SQL 스크립트 더미와 수작업으로 이뤄졌습니다. 누가 어떤 테이블을 만들었는지, 의존 관계가 무엇인지 아무도 모르는 상태가 흔했습니다. dbt는 이 변환 계층(ELT의 T)을 소프트웨어 엔지니어링 원칙으로 다루게 해주는 도구입니다. 이 글에서는 dbt의 모델, 참조 시스템, 테스트, 문서화를 차례로 살펴보고, 실무에서 모델 구조를 어떻게 잡아야 하는지 다룹니다. dbt가 바꾸는 것...