728x90
반응형

hudi 5

Project Nessie

개요데이터 레이크와 데이터 웨어하우스 환경에서 가장 큰 과제 중 하나는 데이터 관리의 일관성, 버저닝, 협업입니다. 이러한 문제를 해결하기 위해 등장한 것이 Project Nessie입니다. Nessie는 Git과 유사한 방식으로 데이터 레이크를 관리할 수 있는 오픈소스 프로젝트로, 데이터 변경 이력 추적, 브랜치 관리, 협업 환경을 지원합니다.1. 개념 및 정의Project Nessie는 데이터 레이크용 오픈소스 메타스토어로, Git 스타일의 브랜치 및 태그 기능을 제공하여 데이터 버저닝과 협업을 단순화하는 플랫폼입니다. Apache Iceberg, Delta Lake, Apache Hudi 등과 통합되어 데이터 관리 효율성을 극대화합니다.주요 목적은 데이터 레이크 환경에서의 안정적 버저닝 및 협업 지..

Topic 2025.09.14

Delta-Kernel Incremental Table (DKIT)

개요데이터 기반 시스템이 대규모화되고 실시간성이 요구되면서, 전체 데이터를 매번 재처리하는 방식은 비효율적이며 확장성이 떨어집니다. 이를 극복하기 위한 솔루션으로 **Delta-Kernel Incremental Table(DKIT)**이 주목받고 있습니다. DKIT는 변경된 데이터만을 효율적으로 추적하고 처리할 수 있도록 설계된 증분 데이터 처리 아키텍처로, 특히 데이터 레이크하우스, 스트리밍 분석, 이벤트 기반 플랫폼 등에서 핵심 기술로 활용됩니다.1. 개념 및 정의**Delta-Kernel Incremental Table (DKIT)**은 원본 데이터 테이블에서 변경 사항만을 추출해 처리하는 증분 업데이트 기반 커널 구조로, 데이터 변경 이력 추적, 버전 관리, 증분 연산 최적화를 가능하게 하는 테이..

Topic 2025.08.30

Table Format Inter-operability Layer (TFIL)

개요Table Format Inter-operability Layer(TFIL)는 Apache Iceberg, Delta Lake, Apache Hudi 등 다양한 레이크하우스 테이블 포맷 간의 상호 운용성을 제공하기 위한 중간 계층입니다. 데이터 플랫폼이 이기종 포맷을 다룰 때 발생하는 포맷 종속성 문제를 해결하고, 다양한 분석 및 처리 엔진과의 통합성을 확보하는 데 목적이 있습니다. TFIL은 메타데이터 해석, 포맷 전환, 스키마 통합 등의 기능을 중심으로 설계됩니다.1. 개념 및 정의 항목 설명 비고 정의다양한 테이블 포맷 간 상호호환을 가능케 하는 인터페이스 계층포맷 간 추상화 처리목적Iceberg, Delta, Hudi 등 간의 쿼리/읽기 호환성 확보분석/ML 엔진 통합에 유리필요성테이블 포..

Topic 2025.08.18

Zero-Copy Data Lake

개요데이터가 폭발적으로 증가하고 조직 간 협업 및 분석 수요가 커지면서, 데이터 레이크(Data Lake)의 구조 또한 진화하고 있습니다. 특히 데이터를 복제하지 않고 여러 워크로드에서 공유할 수 있는 Zero-Copy Data Lake 아키텍처가 주목받고 있습니다. 이 구조는 데이터 이동 없이 다양한 분석 및 머신러닝 워크로드에 동일한 데이터를 활용할 수 있도록 하여, 비용 절감과 거버넌스 강화를 동시에 실현합니다.1. 개념 및 정의Zero-Copy Data Lake란 데이터를 별도로 복사(copy)하지 않고, 단일 저장소에서 다양한 분석 시스템이나 팀이 해당 데이터를 공유·활용할 수 있는 데이터 레이크 아키텍처입니다.전통적인 방식에서는 데이터를 이동하거나 복제하여 팀별로 보유하였지만, Zero-Cop..

Topic 2025.07.16

Delta Lake UniForm

개요빅데이터 환경에서 데이터 레이크와 데이터 웨어하우스 간의 통합은 여전히 해결되지 않은 기술적 과제였습니다. 이 두 환경의 포맷, 성능, 일관성 차이로 인해 조직은 데이터 복제, 이중 저장, ETL 반복 등 많은 비효율을 감수해야 했습니다. 이를 해결하기 위해 Delta Lake는 2023년, UniForm이라는 혁신 기능을 공개했습니다. Delta Lake UniForm은 Iceberg, Hudi, Parquet 등 다양한 오픈 테이블 포맷과의 메타데이터 호환성을 지원하여, 진정한 One Table, Multi Engine을 실현하는 핵심 기술입니다.1. 개념 및 정의Delta Lake UniForm은 Delta Lake에 저장된 데이터를 **다른 오픈 테이블 포맷(Iceberg, Hudi 등)**과..

Topic 2025.07.10
728x90
반응형