728x90
반응형

Spark 6

One Table (Lakehouse Multi-Engine Table Spec)

개요One Table은 Lakehouse 아키텍처에서 다양한 데이터 처리 엔진과 분석 플랫폼이 하나의 테이블 형식으로 읽고 쓸 수 있도록 지원하는 다중 엔진 호환 테이블 사양(Multi-Engine Table Spec)이다. Apache Iceberg와 Delta Lake 포맷을 상호 운용 가능하게 만드는 사양으로, 개방성과 호환성, 확장성 측면에서 데이터 생태계에 중요한 전환점을 제공한다.1. 개념 및 정의One Table은 데이터가 저장된 단일 테이블을 Iceberg, Delta Lake, Apache Spark, Trino, Flink, Hive, Dremio, Snowflake 등 다양한 엔진이 동일한 규격으로 읽고 쓸 수 있도록 중재하는 메타데이터 구조 및 포맷 인터페이스다. 구성 요소 설명 ..

Topic 2025.06.24

Delta Lake

개요Delta Lake는 기존 데이터 레이크에 ACID 트랜잭션, 버전 관리, 스키마 강제 등의 기능을 추가하여, 안정적이고 신뢰할 수 있는 데이터 처리 환경을 제공하는 오픈소스 스토리지 레이어이다. Databricks에서 주도하며, Apache Spark 및 Lakehouse 아키텍처의 핵심 구성요소로 채택되고 있다.1. 개념 및 정의 항목 내용 정의Apache Spark 기반 데이터 레이크에 트랜잭션, 스키마 관리, 데이터 버전 기능을 추가한 스토리지 포맷 및 레이어형식Parquet + 트랜잭션 로그(_delta_log) 기반 스토리지주체Databricks 주도, Linux Foundation Project 참여Delta Lake는 "데이터 레이크의 유연성"과 "데이터 웨어하우스의 신뢰성"을 결합한..

Topic 2025.06.21

Apache Iceberg Merge-On-Read (MoR)

개요Apache Iceberg의 Merge-On-Read(MoR) 모드는 데이터 레이크 환경에서 업데이트 및 삭제와 같은 변경 작업을 수행할 때, 기존 데이터 파일을 직접 수정하지 않고 별도 위치에 기록한 후, 쿼리 시점에 해당 변경 사항을 병합하여 읽는 전략입니다. 이를 통해 실시간 처리가 필요한 대용량 데이터 분석에서 고성능 쓰기와 최신 상태 조회를 동시에 달성할 수 있습니다.1. 개념 및 정의 항목 설명 정의Iceberg 테이블에서 업데이트/삭제를 별도 파일로 저장하고, 쿼리 시점에 기존 파일과 병합하여 읽는 쓰기 모드주요 목적데이터 수정을 즉시 반영하면서도, 원본 파일의 재작성 비용 최소화활용 환경데이터 웨어하우스, 스트리밍 ETL, 실시간 리포팅 등MoR은 Copy-On-Write(COW)보다..

Topic 2025.06.12

빅데이터 분석도구 선택 원칙(Big Data Analytics Tool Selection Principles)

개요빅데이터 분석은 방대한 데이터로부터 인사이트를 도출하여 비즈니스 의사결정을 지원하는 핵심 활동이다. 이를 위해 다양한 분석 도구가 활용되며, 각 도구는 기능, 성능, 사용 용이성, 확장성 등에서 차이를 보인다. 분석 목적과 조직의 기술 환경에 따라 최적의 도구를 선택하는 것은 데이터 프로젝트의 성패를 좌우할 수 있다. 본 글에서는 빅데이터 분석도구 선택 시 고려해야 할 주요 원칙과 평가 기준을 정리한다.1. 개념 및 정의빅데이터 분석도구는 구조적/비정형 데이터를 수집, 저장, 처리, 분석 및 시각화하는 데 사용되는 소프트웨어 플랫폼 및 프레임워크를 의미한다.목적: 대용량 데이터를 신속하고 정확하게 분석하여 가치 창출필요성: 데이터 기반 의사결정, 예측 모델링, 고객 통찰 확보 등의 활용 증대유형: 배..

Topic 2025.04.21

빅데이터(Big Data) & 빅데이터 2.0

개요'빅데이터'는 대량의 데이터를 수집·저장·분석하여 인사이트를 도출하는 기술과 방법론을 의미하며, 2010년대 초부터 산업 전반에서 디지털 혁신을 이끌어왔습니다. 하지만 정형·비정형 데이터를 저장하는 데 그치지 않고, AI 기반의 실시간 분석과 자동화된 의사결정까지 요구되는 시대가 도래하면서 '빅데이터 2.0' 개념이 주목받고 있습니다. 본 포스트에서는 빅데이터와 빅데이터 2.0의 개념, 기술 차이, 아키텍처, 활용 사례 등을 비교 분석합니다.1. 빅데이터(Big Data)란? 항목 설명 정의대용량, 고속, 다양한 형태의 데이터를 저장하고 분석하는 기술 및 환경특징3V(Volume, Velocity, Variety) → 이후 5V(Veracity, Value)로 확장주요 기술Hadoop, HDFS, ..

Topic 2025.04.21

빅데이터 프레임워크 (Hadoop, Spark)

개요빅데이터 프레임워크는 대용량 데이터를 저장, 처리 및 분석하기 위한 분산 컴퓨팅 기술입니다. 대표적인 빅데이터 프레임워크로는 Apache Hadoop과 Apache Spark가 있으며, 이들은 데이터 웨어하우스, 머신러닝, 실시간 데이터 분석 등 다양한 분야에서 활용됩니다. Hadoop은 배치 처리(Batch Processing)에 최적화된 분산 저장 및 연산 기술을 제공하며, Spark는 메모리 기반의 고속 데이터 처리를 지원하여 실시간 분석을 가능하게 합니다.1. 빅데이터 프레임워크란?빅데이터 프레임워크는 대량의 데이터를 분산된 환경에서 효과적으로 저장하고 처리할 수 있도록 설계된 시스템입니다. **전통적인 데이터베이스 시스템(RDBMS)**과는 달리, 수십~수백 테라바이트(TB) 이상의 데이터를..

Topic 2025.03.05
728x90
반응형