728x90
반응형

deltalake 6

Delta Lake UniForm

개요빅데이터 환경에서 데이터 레이크와 데이터 웨어하우스 간의 통합은 여전히 해결되지 않은 기술적 과제였습니다. 이 두 환경의 포맷, 성능, 일관성 차이로 인해 조직은 데이터 복제, 이중 저장, ETL 반복 등 많은 비효율을 감수해야 했습니다. 이를 해결하기 위해 Delta Lake는 2023년, UniForm이라는 혁신 기능을 공개했습니다. Delta Lake UniForm은 Iceberg, Hudi, Parquet 등 다양한 오픈 테이블 포맷과의 메타데이터 호환성을 지원하여, 진정한 One Table, Multi Engine을 실현하는 핵심 기술입니다.1. 개념 및 정의Delta Lake UniForm은 Delta Lake에 저장된 데이터를 **다른 오픈 테이블 포맷(Iceberg, Hudi 등)**과..

Topic 2025.07.10

Log-Based Delta

개요Log-Based Delta는 데이터베이스 또는 분산 시스템의 변경 로그(Change Log 또는 Transaction Log)를 기반으로 데이터 변화만을 감지하여 저장, 동기화, 전파하는 효율적인 데이터 처리 기술입니다. 이는 대규모 데이터 환경에서의 성능 최적화, 실시간 분석, CDC(Change Data Capture) 기반 데이터 흐름 구성에 핵심적으로 활용됩니다.1. 개념 및 정의Log-Based Delta는 전체 데이터를 비교하거나 재처리하지 않고, 로그 상의 변경 정보만 추출하여 데이터 처리에 반영하는 방식입니다.핵심 아이디어: 변경 이벤트 중심의 데이터 최소 처리출처: 트랜잭션 로그, 바이너리 로그, Write-Ahead Log 등적용 범위: 데이터 복제, 스트리밍 분석, 비동기 동기화..

Topic 2025.07.05

One Table (Lakehouse Multi-Engine Table Spec)

개요One Table은 Lakehouse 아키텍처에서 다양한 데이터 처리 엔진과 분석 플랫폼이 하나의 테이블 형식으로 읽고 쓸 수 있도록 지원하는 다중 엔진 호환 테이블 사양(Multi-Engine Table Spec)이다. Apache Iceberg와 Delta Lake 포맷을 상호 운용 가능하게 만드는 사양으로, 개방성과 호환성, 확장성 측면에서 데이터 생태계에 중요한 전환점을 제공한다.1. 개념 및 정의One Table은 데이터가 저장된 단일 테이블을 Iceberg, Delta Lake, Apache Spark, Trino, Flink, Hive, Dremio, Snowflake 등 다양한 엔진이 동일한 규격으로 읽고 쓸 수 있도록 중재하는 메타데이터 구조 및 포맷 인터페이스다. 구성 요소 설명 ..

Topic 2025.06.24

Delta Lake

개요Delta Lake는 기존 데이터 레이크에 ACID 트랜잭션, 버전 관리, 스키마 강제 등의 기능을 추가하여, 안정적이고 신뢰할 수 있는 데이터 처리 환경을 제공하는 오픈소스 스토리지 레이어이다. Databricks에서 주도하며, Apache Spark 및 Lakehouse 아키텍처의 핵심 구성요소로 채택되고 있다.1. 개념 및 정의 항목 내용 정의Apache Spark 기반 데이터 레이크에 트랜잭션, 스키마 관리, 데이터 버전 기능을 추가한 스토리지 포맷 및 레이어형식Parquet + 트랜잭션 로그(_delta_log) 기반 스토리지주체Databricks 주도, Linux Foundation Project 참여Delta Lake는 "데이터 레이크의 유연성"과 "데이터 웨어하우스의 신뢰성"을 결합한..

Topic 2025.06.21

Unity Catalog

개요Unity Catalog는 Databricks에서 제공하는 통합 데이터 거버넌스 솔루션으로, 조직의 모든 데이터 자산에 대한 중앙 집중적 카탈로그, 권한 관리, 감사 추적, 계보(라인리지) 정보를 제공하는 메타데이터 관리 플랫폼이다. Lakehouse 아키텍처에 최적화되어 있으며, 데이터 엔지니어, 분석가, 보안 관리자 모두를 위한 단일 관리 체계를 실현한다.1. 개념 및 정의 항목 설명 정의Databricks 내의 테이블, 뷰, 파일, ML 모델 등에 대한 메타데이터, 권한, 라인리지 등을 중앙 관리하는 플랫폼역할데이터 거버넌스, 카탈로그 관리, 접근 제어, 감사 로깅 제공대상 환경Databricks Lakehouse, Delta Lake 기반 워크스페이스 전반Unity Catalog는 Azure..

Topic 2025.06.21

Lakehouse(레이크하우스)

개요Lakehouse(레이크하우스)는 데이터 레이크(Data Lake)의 유연성과 데이터 웨어하우스(Data Warehouse)의 구조화된 분석 기능을 결합한 차세대 데이터 아키텍처입니다. 방대한 양의 정형, 반정형, 비정형 데이터를 하나의 플랫폼에서 저장하고 분석할 수 있도록 하며, 비용 효율성과 확장성, 실시간 분석 기능을 동시에 갖춘 혁신적 접근 방식으로 주목받고 있습니다.1. 개념 및 정의Lakehouse는 데이터 레이크 기반의 대용량 저장 구조에, 웨어하우스급 ACID 트랜잭션, 카탈로그, BI 호환성 등의 기능을 결합하여, 하나의 통합 플랫폼에서 데이터 처리와 분석을 모두 수행할 수 있도록 하는 아키텍처입니다.핵심 목적:데이터 중복 제거: 레이크와 웨어하우스 이중 유지 문제 해결실시간 분석 가..

Topic 2025.04.05
728x90
반응형