빅데이터 아키텍처는 지난 10년간 급격한 변화를 겪어왔습니다. Hadoop 생태계에서 시작하여 클라우드 기반 데이터 레이크, 그리고 최근의 데이터 레이크하우스와 데이터 메시까지, 빅데이터를 관리하고 활용하는 방식이 근본적으로 변하고 있습니다.

데이터 레이크하우스(Data Lakehouse)의 부상

데이터 레이크하우스는 데이터 레이크의 유연성과 데이터 웨어하우스의 성능 및 관리 기능을 결합한 아키텍처입니다. Databricks의 Delta Lake, Apache Iceberg, Apache Hudi 같은 오픈 테이블 포맷의 등장으로, 기업들은 하나의 저장소에서 다양한 워크로드를 처리할 수 있게 되었습니다.

데이터 메시(Data Mesh)의 확산

Zhamak Dehghani가 제안한 데이터 메시 아키텍처는 중앙 집중형 데이터 관리에서 도메인 중심의 분산형 데이터 관리로의 패러다임 전환을 제시합니다. 각 비즈니스 도메인 팀이 자체 데이터를 ‘데이터 제품(Data Product)’으로 관리하고, 셀프서비스 데이터 인프라를 통해 조직 전체가 활용할 수 있도록 합니다.

클라우드 네이티브 빅데이터 처리

Snowflake, BigQuery, Redshift Serverless 같은 클라우드 네이티브 데이터 플랫폼은 서버리스 컴퓨팅을 통해 빅데이터 처리의 진입 장벽을 크게 낮추고 있습니다. 스토리지와 컴퓨팅의 분리 아키텍처는 비용 효율성과 확장성을 동시에 제공합니다.

결론

빅데이터 아키텍처는 중앙 집중형에서 분산형으로, 배치 처리에서 실시간 처리로, 온프레미스에서 클라우드 네이티브로 진화하고 있습니다. 데이터 레이크하우스와 데이터 메시는 이러한 진화의 최전선에 있으며, 조직이 더 효율적으로 빅데이터를 관리하고 활용할 수 있도록 돕고 있습니다.