AI·데이터·인프라까지, e-wikidversity의 모든 기술 아티클을 한곳에서 시간순으로 모았습니다.
데이터 레이크의 유연성과 웨어하우스의 신뢰성을 결합한 레이크하우스를 설계하는 원칙과 단계를 실무 관점에서 정리합니다.
메시지 브로커 Kafka의 핵심 개념부터 프로듀서, 컨슈머, 토픽 설계까지 실시간 데이터 파이프라인을 단계별로 만들어 봅니다.
Airflow의 DAG, 태스크 의존성, 스케줄링 원리를 이해하고 안정적인 워크플로 오케스트레이션을 구축하는 방법을 설명합니다.
SQL 기반 변환 도구 dbt로 모듈화된 데이터 모델을 만들고 테스트와 문서화를 자동화하는 분석 엔지니어링 워크플로를 소개합니다.
변환을 적재 전에 할지 후에 할지에 따라 달라지는 ETL과 ELT의 구조, 비용, 적합한 상황을 실무 기준으로 비교 분석합니다.
데이터 스키마가 시간에 따라 변하는 것은 필연입니다. 하위 호환성을 지키며 스키마를 진화시키는 전략과 도구를 정리합니다.
느린 Spark 잡의 원인 대부분은 셔플과 데이터 스큐입니다. 파티셔닝, 조인 전략, AQE를 활용한 실전 튜닝 기법을 정리합니다.
파이프라인이 돌아간다고 데이터가 정확한 것은 아닙니다. 신선도, 양, 분포, 스키마, 계보를 아우르는 데이터 관측성 체계를 설명합니다.
일 1회 배치로 운영하던 분석 파이프라인을 준실시간 스트리밍으로 전환한 6개월의 과정과 시행착오, 그리고 배운 교훈을 공유합니다.