728x90
반응형

Iceberg 6

Table Format Inter-operability Layer (TFIL)

개요Table Format Inter-operability Layer(TFIL)는 Apache Iceberg, Delta Lake, Apache Hudi 등 다양한 레이크하우스 테이블 포맷 간의 상호 운용성을 제공하기 위한 중간 계층입니다. 데이터 플랫폼이 이기종 포맷을 다룰 때 발생하는 포맷 종속성 문제를 해결하고, 다양한 분석 및 처리 엔진과의 통합성을 확보하는 데 목적이 있습니다. TFIL은 메타데이터 해석, 포맷 전환, 스키마 통합 등의 기능을 중심으로 설계됩니다.1. 개념 및 정의 항목 설명 비고 정의다양한 테이블 포맷 간 상호호환을 가능케 하는 인터페이스 계층포맷 간 추상화 처리목적Iceberg, Delta, Hudi 등 간의 쿼리/읽기 호환성 확보분석/ML 엔진 통합에 유리필요성테이블 포..

Topic 18:00:22

Lakehouse Federation Query Engine (LFQE)

개요Lakehouse Federation Query Engine(LFQE)는 다양한 데이터 소스를 단일 인터페이스를 통해 통합적으로 질의할 수 있도록 지원하는 차세대 분석 엔진입니다. 특히 레이크하우스 아키텍처 위에서 작동하며, 데이터 웨어하우스와 데이터 레이크 간의 장점을 결합한 구조를 갖추고 있어 기업의 데이터 분석 효율을 극대화합니다. 본 글에서는 LFQE의 개념, 구조, 기술 요소 및 활용 사례를 상세히 분석합니다.1. 개념 및 정의 항목 내용 비고 정의이기종 데이터 소스를 통합 질의하는 분산형 질의 엔진다양한 커넥터 지원목적레이크하우스 환경에서 실시간 분석 및 연합 쿼리 수행성능과 유연성 확보필요성여러 데이터 저장소를 하나의 논리적 단위로 조회 가능데이터 사일로 해소LFQE는 Delta La..

Topic 2025.08.15

Iceberg REST Catalog (IRC)

개요Iceberg REST Catalog(IRC)는 Apache Iceberg에서 정의한 RESTful API 기반 메타데이터 카탈로그 프로토콜로, 다양한 클라이언트(엔진, 도구, 서비스)가 Iceberg 테이블에 대한 메타데이터를 표준 방식으로 접근할 수 있도록 지원하는 컴포넌트입니다. 기존 Hive Metastore의 한계를 극복하고, REST 기반의 클라우드 친화적, 확장 가능한 메타데이터 서비스 아키텍처로 전환하는 핵심 기술로 주목받고 있습니다.1. 개념 및 정의IRC는 Apache Iceberg의 테이블, 스냅샷, 분할(partition), 메타데이터 파일 등 객체들에 대한 읽기/쓰기 인터페이스를 REST API로 제공하는 카탈로그 서비스입니다.이로써 Presto, Trino, Spark, Fl..

Topic 2025.07.26

Zero-Copy Data Lake

개요데이터가 폭발적으로 증가하고 조직 간 협업 및 분석 수요가 커지면서, 데이터 레이크(Data Lake)의 구조 또한 진화하고 있습니다. 특히 데이터를 복제하지 않고 여러 워크로드에서 공유할 수 있는 Zero-Copy Data Lake 아키텍처가 주목받고 있습니다. 이 구조는 데이터 이동 없이 다양한 분석 및 머신러닝 워크로드에 동일한 데이터를 활용할 수 있도록 하여, 비용 절감과 거버넌스 강화를 동시에 실현합니다.1. 개념 및 정의Zero-Copy Data Lake란 데이터를 별도로 복사(copy)하지 않고, 단일 저장소에서 다양한 분석 시스템이나 팀이 해당 데이터를 공유·활용할 수 있는 데이터 레이크 아키텍처입니다.전통적인 방식에서는 데이터를 이동하거나 복제하여 팀별로 보유하였지만, Zero-Cop..

Topic 2025.07.16

Delta Lake UniForm

개요빅데이터 환경에서 데이터 레이크와 데이터 웨어하우스 간의 통합은 여전히 해결되지 않은 기술적 과제였습니다. 이 두 환경의 포맷, 성능, 일관성 차이로 인해 조직은 데이터 복제, 이중 저장, ETL 반복 등 많은 비효율을 감수해야 했습니다. 이를 해결하기 위해 Delta Lake는 2023년, UniForm이라는 혁신 기능을 공개했습니다. Delta Lake UniForm은 Iceberg, Hudi, Parquet 등 다양한 오픈 테이블 포맷과의 메타데이터 호환성을 지원하여, 진정한 One Table, Multi Engine을 실현하는 핵심 기술입니다.1. 개념 및 정의Delta Lake UniForm은 Delta Lake에 저장된 데이터를 **다른 오픈 테이블 포맷(Iceberg, Hudi 등)**과..

Topic 2025.07.10

Lakehouse(레이크하우스)

개요Lakehouse(레이크하우스)는 데이터 레이크(Data Lake)의 유연성과 데이터 웨어하우스(Data Warehouse)의 구조화된 분석 기능을 결합한 차세대 데이터 아키텍처입니다. 방대한 양의 정형, 반정형, 비정형 데이터를 하나의 플랫폼에서 저장하고 분석할 수 있도록 하며, 비용 효율성과 확장성, 실시간 분석 기능을 동시에 갖춘 혁신적 접근 방식으로 주목받고 있습니다.1. 개념 및 정의Lakehouse는 데이터 레이크 기반의 대용량 저장 구조에, 웨어하우스급 ACID 트랜잭션, 카탈로그, BI 호환성 등의 기능을 결합하여, 하나의 통합 플랫폼에서 데이터 처리와 분석을 모두 수행할 수 있도록 하는 아키텍처입니다.핵심 목적:데이터 중복 제거: 레이크와 웨어하우스 이중 유지 문제 해결실시간 분석 가..

Topic 2025.04.05
728x90
반응형