728x90
반응형

apacheiceberg 3

Iceberg REST Catalog (IRC)

개요Iceberg REST Catalog(IRC)는 Apache Iceberg에서 정의한 RESTful API 기반 메타데이터 카탈로그 프로토콜로, 다양한 클라이언트(엔진, 도구, 서비스)가 Iceberg 테이블에 대한 메타데이터를 표준 방식으로 접근할 수 있도록 지원하는 컴포넌트입니다. 기존 Hive Metastore의 한계를 극복하고, REST 기반의 클라우드 친화적, 확장 가능한 메타데이터 서비스 아키텍처로 전환하는 핵심 기술로 주목받고 있습니다.1. 개념 및 정의IRC는 Apache Iceberg의 테이블, 스냅샷, 분할(partition), 메타데이터 파일 등 객체들에 대한 읽기/쓰기 인터페이스를 REST API로 제공하는 카탈로그 서비스입니다.이로써 Presto, Trino, Spark, Fl..

Topic 2025.07.26

One Table (Lakehouse Multi-Engine Table Spec)

개요One Table은 Lakehouse 아키텍처에서 다양한 데이터 처리 엔진과 분석 플랫폼이 하나의 테이블 형식으로 읽고 쓸 수 있도록 지원하는 다중 엔진 호환 테이블 사양(Multi-Engine Table Spec)이다. Apache Iceberg와 Delta Lake 포맷을 상호 운용 가능하게 만드는 사양으로, 개방성과 호환성, 확장성 측면에서 데이터 생태계에 중요한 전환점을 제공한다.1. 개념 및 정의One Table은 데이터가 저장된 단일 테이블을 Iceberg, Delta Lake, Apache Spark, Trino, Flink, Hive, Dremio, Snowflake 등 다양한 엔진이 동일한 규격으로 읽고 쓸 수 있도록 중재하는 메타데이터 구조 및 포맷 인터페이스다. 구성 요소 설명 ..

Topic 2025.06.24

Apache Iceberg Merge-On-Read (MoR)

개요Apache Iceberg의 Merge-On-Read(MoR) 모드는 데이터 레이크 환경에서 업데이트 및 삭제와 같은 변경 작업을 수행할 때, 기존 데이터 파일을 직접 수정하지 않고 별도 위치에 기록한 후, 쿼리 시점에 해당 변경 사항을 병합하여 읽는 전략입니다. 이를 통해 실시간 처리가 필요한 대용량 데이터 분석에서 고성능 쓰기와 최신 상태 조회를 동시에 달성할 수 있습니다.1. 개념 및 정의 항목 설명 정의Iceberg 테이블에서 업데이트/삭제를 별도 파일로 저장하고, 쿼리 시점에 기존 파일과 병합하여 읽는 쓰기 모드주요 목적데이터 수정을 즉시 반영하면서도, 원본 파일의 재작성 비용 최소화활용 환경데이터 웨어하우스, 스트리밍 ETL, 실시간 리포팅 등MoR은 Copy-On-Write(COW)보다..

Topic 2025.06.12
728x90
반응형