728x90
반응형

deltalake 10

Project Nessie

개요데이터 레이크와 데이터 웨어하우스 환경에서 가장 큰 과제 중 하나는 데이터 관리의 일관성, 버저닝, 협업입니다. 이러한 문제를 해결하기 위해 등장한 것이 Project Nessie입니다. Nessie는 Git과 유사한 방식으로 데이터 레이크를 관리할 수 있는 오픈소스 프로젝트로, 데이터 변경 이력 추적, 브랜치 관리, 협업 환경을 지원합니다.1. 개념 및 정의Project Nessie는 데이터 레이크용 오픈소스 메타스토어로, Git 스타일의 브랜치 및 태그 기능을 제공하여 데이터 버저닝과 협업을 단순화하는 플랫폼입니다. Apache Iceberg, Delta Lake, Apache Hudi 등과 통합되어 데이터 관리 효율성을 극대화합니다.주요 목적은 데이터 레이크 환경에서의 안정적 버저닝 및 협업 지..

Topic 2025.09.14

Delta-Kernel Incremental Table (DKIT)

개요데이터 기반 시스템이 대규모화되고 실시간성이 요구되면서, 전체 데이터를 매번 재처리하는 방식은 비효율적이며 확장성이 떨어집니다. 이를 극복하기 위한 솔루션으로 **Delta-Kernel Incremental Table(DKIT)**이 주목받고 있습니다. DKIT는 변경된 데이터만을 효율적으로 추적하고 처리할 수 있도록 설계된 증분 데이터 처리 아키텍처로, 특히 데이터 레이크하우스, 스트리밍 분석, 이벤트 기반 플랫폼 등에서 핵심 기술로 활용됩니다.1. 개념 및 정의**Delta-Kernel Incremental Table (DKIT)**은 원본 데이터 테이블에서 변경 사항만을 추출해 처리하는 증분 업데이트 기반 커널 구조로, 데이터 변경 이력 추적, 버전 관리, 증분 연산 최적화를 가능하게 하는 테이..

Topic 2025.08.30

데이터 관리 및 저장 아키텍처

개요디지털 전환이 가속화되면서 조직의 데이터 생성량과 다양성이 기하급수적으로 증가하고 있습니다. 이에 따라 데이터를 효율적으로 수집, 처리, 저장, 활용하기 위한 체계적인 구조가 필요하며, 그 핵심이 바로 데이터 관리 및 저장 아키텍처입니다. 본 글에서는 전통적 데이터웨어하우스부터 클라우드 네이티브 스토리지, 레이크하우스 아키텍처 등 최신 트렌드까지 포함하여 데이터 저장 전략의 흐름과 구성 요소, 기술 적용 사례를 종합적으로 설명합니다.1. 개념 및 정의데이터 아키텍처는 조직 내 데이터가 어떻게 수집되고 저장되며 흐르고, 접근되고 분석되는지를 정의하는 기술적·논리적 구조입니다.데이터 저장 아키텍처는 특히 데이터를 물리적으로 저장하고 관리하는 계층으로, 구조화/비정형 데이터, 접근 속도, 확장성 등을 고려..

Topic 2025.08.24

Table Format Inter-operability Layer (TFIL)

개요Table Format Inter-operability Layer(TFIL)는 Apache Iceberg, Delta Lake, Apache Hudi 등 다양한 레이크하우스 테이블 포맷 간의 상호 운용성을 제공하기 위한 중간 계층입니다. 데이터 플랫폼이 이기종 포맷을 다룰 때 발생하는 포맷 종속성 문제를 해결하고, 다양한 분석 및 처리 엔진과의 통합성을 확보하는 데 목적이 있습니다. TFIL은 메타데이터 해석, 포맷 전환, 스키마 통합 등의 기능을 중심으로 설계됩니다.1. 개념 및 정의 항목 설명 비고 정의다양한 테이블 포맷 간 상호호환을 가능케 하는 인터페이스 계층포맷 간 추상화 처리목적Iceberg, Delta, Hudi 등 간의 쿼리/읽기 호환성 확보분석/ML 엔진 통합에 유리필요성테이블 포..

Topic 2025.08.18

Delta Lake UniForm

개요빅데이터 환경에서 데이터 레이크와 데이터 웨어하우스 간의 통합은 여전히 해결되지 않은 기술적 과제였습니다. 이 두 환경의 포맷, 성능, 일관성 차이로 인해 조직은 데이터 복제, 이중 저장, ETL 반복 등 많은 비효율을 감수해야 했습니다. 이를 해결하기 위해 Delta Lake는 2023년, UniForm이라는 혁신 기능을 공개했습니다. Delta Lake UniForm은 Iceberg, Hudi, Parquet 등 다양한 오픈 테이블 포맷과의 메타데이터 호환성을 지원하여, 진정한 One Table, Multi Engine을 실현하는 핵심 기술입니다.1. 개념 및 정의Delta Lake UniForm은 Delta Lake에 저장된 데이터를 **다른 오픈 테이블 포맷(Iceberg, Hudi 등)**과..

Topic 2025.07.10

Log-Based Delta

개요Log-Based Delta는 데이터베이스 또는 분산 시스템의 변경 로그(Change Log 또는 Transaction Log)를 기반으로 데이터 변화만을 감지하여 저장, 동기화, 전파하는 효율적인 데이터 처리 기술입니다. 이는 대규모 데이터 환경에서의 성능 최적화, 실시간 분석, CDC(Change Data Capture) 기반 데이터 흐름 구성에 핵심적으로 활용됩니다.1. 개념 및 정의Log-Based Delta는 전체 데이터를 비교하거나 재처리하지 않고, 로그 상의 변경 정보만 추출하여 데이터 처리에 반영하는 방식입니다.핵심 아이디어: 변경 이벤트 중심의 데이터 최소 처리출처: 트랜잭션 로그, 바이너리 로그, Write-Ahead Log 등적용 범위: 데이터 복제, 스트리밍 분석, 비동기 동기화..

Topic 2025.07.05

One Table (Lakehouse Multi-Engine Table Spec)

개요One Table은 Lakehouse 아키텍처에서 다양한 데이터 처리 엔진과 분석 플랫폼이 하나의 테이블 형식으로 읽고 쓸 수 있도록 지원하는 다중 엔진 호환 테이블 사양(Multi-Engine Table Spec)이다. Apache Iceberg와 Delta Lake 포맷을 상호 운용 가능하게 만드는 사양으로, 개방성과 호환성, 확장성 측면에서 데이터 생태계에 중요한 전환점을 제공한다.1. 개념 및 정의One Table은 데이터가 저장된 단일 테이블을 Iceberg, Delta Lake, Apache Spark, Trino, Flink, Hive, Dremio, Snowflake 등 다양한 엔진이 동일한 규격으로 읽고 쓸 수 있도록 중재하는 메타데이터 구조 및 포맷 인터페이스다. 구성 요소 설명 ..

Topic 2025.06.24

Delta Lake

개요Delta Lake는 기존 데이터 레이크에 ACID 트랜잭션, 버전 관리, 스키마 강제 등의 기능을 추가하여, 안정적이고 신뢰할 수 있는 데이터 처리 환경을 제공하는 오픈소스 스토리지 레이어이다. Databricks에서 주도하며, Apache Spark 및 Lakehouse 아키텍처의 핵심 구성요소로 채택되고 있다.1. 개념 및 정의 항목 내용 정의Apache Spark 기반 데이터 레이크에 트랜잭션, 스키마 관리, 데이터 버전 기능을 추가한 스토리지 포맷 및 레이어형식Parquet + 트랜잭션 로그(_delta_log) 기반 스토리지주체Databricks 주도, Linux Foundation Project 참여Delta Lake는 "데이터 레이크의 유연성"과 "데이터 웨어하우스의 신뢰성"을 결합한..

Topic 2025.06.21

Unity Catalog

개요Unity Catalog는 Databricks에서 제공하는 통합 데이터 거버넌스 솔루션으로, 조직의 모든 데이터 자산에 대한 중앙 집중적 카탈로그, 권한 관리, 감사 추적, 계보(라인리지) 정보를 제공하는 메타데이터 관리 플랫폼이다. Lakehouse 아키텍처에 최적화되어 있으며, 데이터 엔지니어, 분석가, 보안 관리자 모두를 위한 단일 관리 체계를 실현한다.1. 개념 및 정의 항목 설명 정의Databricks 내의 테이블, 뷰, 파일, ML 모델 등에 대한 메타데이터, 권한, 라인리지 등을 중앙 관리하는 플랫폼역할데이터 거버넌스, 카탈로그 관리, 접근 제어, 감사 로깅 제공대상 환경Databricks Lakehouse, Delta Lake 기반 워크스페이스 전반Unity Catalog는 Azure..

Topic 2025.06.21

Lakehouse(레이크하우스)

개요Lakehouse(레이크하우스)는 데이터 레이크(Data Lake)의 유연성과 데이터 웨어하우스(Data Warehouse)의 구조화된 분석 기능을 결합한 차세대 데이터 아키텍처입니다. 방대한 양의 정형, 반정형, 비정형 데이터를 하나의 플랫폼에서 저장하고 분석할 수 있도록 하며, 비용 효율성과 확장성, 실시간 분석 기능을 동시에 갖춘 혁신적 접근 방식으로 주목받고 있습니다.1. 개념 및 정의Lakehouse는 데이터 레이크 기반의 대용량 저장 구조에, 웨어하우스급 ACID 트랜잭션, 카탈로그, BI 호환성 등의 기능을 결합하여, 하나의 통합 플랫폼에서 데이터 처리와 분석을 모두 수행할 수 있도록 하는 아키텍처입니다.핵심 목적:데이터 중복 제거: 레이크와 웨어하우스 이중 유지 문제 해결실시간 분석 가..

Topic 2025.04.05
728x90
반응형