'데이터레이크' 태그의 글 목록

Apache Hudi (Hadoop Upserts Deletes and Incrementals)

개요Apache Hudi는 대용량 데이터 레이크에서 실시간 데이터 처리와 업데이트(Upsert), 삭제(Delete), 증분 처리(Incremental Processing)를 가능하게 하는 오픈소스 데이터 관리 프레임워크이다. 기존 데이터 레이크는 배치 처리 중심으로 설계되어 실시간 분석이나 변경 데이터 반영에 한계가 있었으나, Hudi는 이러한 문제를 해결하여 데이터 레이크를 ‘레이크하우스(Lakehouse)’로 진화시키는 핵심 기술로 자리잡고 있다. Uber에서 시작된 프로젝트로, 현재 Apache Top-Level Project로 발전하였다.1. 개념 및 정의Apache Hudi는 데이터 레이크 위에서 데이터 변경(Insert, Update, Delete)을 효율적으로 관리하고, 실시간 분석 및 증..

Topic 2026.05.17

Apache ORC(Optimized Row Columnar)

개요Apache ORC는 하둡(Hadoop) 기반의 대규모 데이터 처리에 최적화된 컬럼 지향(Columar) 저장 포맷으로, 빠른 압축률과 고속 읽기 성능을 제공하는 것이 특징입니다. Hive, Spark, Trino 등의 빅데이터 처리 엔진에서 널리 활용되며, 데이터 분석 효율성과 저장 공간 최적화에 중점을 둡니다.1. 개념 및 정의 항목 설명 정의컬럼 단위로 데이터를 저장하고 압축하는 고성능 파일 포맷목적대규모 데이터 분석의 성능 최적화필요성텍스트 기반 포맷(CSV, JSON)의 비효율 해소 및 컬럼 기반 처리 개선ORC는 대용량의 정형 데이터를 대상으로 한 효율적인 저장과 처리에 적합2. 특징특징설명비교컬럼 지향 포맷컬럼 단위로 데이터 저장Row 기반보다 빠른 질의 성능고압축률Zlib, Snapp..

Topic 2026.01.28

GeoParquet

개요GeoParquet은 Apache Parquet 형식을 기반으로 한 공간 데이터(Geospatial Data) 저장 표준 포맷으로, 대규모 지리정보 데이터를 효율적으로 저장, 공유, 분석할 수 있도록 설계된 오픈 포맷입니다. GIS(Geographic Information System) 및 빅데이터 분석 환경에서 공간 좌표 데이터를 빠르게 읽고 쓸 수 있도록 최적화되어 있으며, 데이터 상호운용성을 강화하여 클라우드 및 분석 플랫폼 간의 데이터 교환을 단순화합니다.1. 개념 및 정의 항목 내용 비고 정의Parquet 형식에 공간 데이터 스키마를 확장한 오픈 표준 포맷GeoArrow 및 GeoJSON 통합 기반목적공간 데이터의 고성능 저장 및 분석 지원빅데이터 분석 및 GIS 통합필요성기존 GIS 포..

Topic 2025.12.18

StarRocks

개요StarRocks는 오픈소스 기반의 실시간 분석(Real-Time Analytics)에 최적화된 MPP(Massively Parallel Processing) SQL 데이터베이스로, 빠른 쿼리 처리와 대규모 데이터 분석을 동시에 지원합니다. OLAP(Online Analytical Processing) 워크로드를 위해 설계되어, 데이터 웨어하우스와 데이터 레이크의 통합 분석을 구현하며, 기존 Apache Doris 프로젝트에서 파생되어 성능 및 확장성을 강화한 차세대 분석 플랫폼입니다.1. 개념 및 정의 항목 내용 비고 정의대규모 데이터에 대해 초저지연 실시간 분석을 제공하는 MPP SQL 엔진Apache Doris 기반목적실시간 BI, 대시보드, 사용자 행동 분석 등 고속 쿼리 수행고성능 분석 ..

Topic 2025.12.17

Trino

개요Trino(구 PrestoSQL)는 대규모 데이터셋에 대해 빠른 SQL 쿼리 처리를 제공하는 오픈소스 분산 SQL 쿼리 엔진이다. 데이터 레이크, 데이터 웨어하우스, 클라우드 스토리지, RDBMS 등 다양한 데이터 소스를 대상으로 단일 SQL 인터페이스를 통해 질의할 수 있어, 데이터 분석 및 BI 환경에서 핵심 플랫폼으로 자리잡고 있다.1. 개념 및 정의 항목 내용 설명 정의Trino오픈소스 분산 SQL 쿼리 엔진목적다양한 데이터 소스 통합 질의데이터 이동 없는 고속 분석필요성빅데이터 환경 확산이기종 데이터 환경 단일 분석 요구Trino는 데이터 복제 없이 원본 데이터 소스에 직접 쿼리를 실행하여 초고속 분석 성능을 제공한다.2. 특징특징설명비고분산 SQL 엔진대규모 클러스터 기반 병렬 처리빅데..

Topic 2025.10.07

Apache Paimon

개요데이터 레이크와 데이터 웨어하우스의 경계가 허물어지면서, 실시간 스트리밍 데이터 처리와 안정적인 저장을 동시에 지원하는 새로운 데이터 관리 기술이 필요해졌습니다. Apache Paimon은 이러한 요구를 충족하기 위해 설계된 오픈소스 프로젝트로, 스트리밍과 배치 처리를 통합 지원하는 차세대 데이터 레이크 테이블 저장소입니다.1. 개념 및 정의Apache Paimon은 대규모 스트리밍 데이터를 안정적으로 저장하고 관리할 수 있는 테이블 포맷 기반 데이터 레이크 저장소입니다. Flink, Spark 등과 통합되어 실시간 데이터 처리와 분석을 지원하며, 데이터 레이크의 일관성 및 효율성을 강화합니다.주요 목적은 스트리밍 데이터의 안정적 저장, 빠른 쿼리 처리, 데이터 레이크 일관성 보장입니다.2. 특징특징..

Topic 2025.09.14

Project Nessie

개요데이터 레이크와 데이터 웨어하우스 환경에서 가장 큰 과제 중 하나는 데이터 관리의 일관성, 버저닝, 협업입니다. 이러한 문제를 해결하기 위해 등장한 것이 Project Nessie입니다. Nessie는 Git과 유사한 방식으로 데이터 레이크를 관리할 수 있는 오픈소스 프로젝트로, 데이터 변경 이력 추적, 브랜치 관리, 협업 환경을 지원합니다.1. 개념 및 정의Project Nessie는 데이터 레이크용 오픈소스 메타스토어로, Git 스타일의 브랜치 및 태그 기능을 제공하여 데이터 버저닝과 협업을 단순화하는 플랫폼입니다. Apache Iceberg, Delta Lake, Apache Hudi 등과 통합되어 데이터 관리 효율성을 극대화합니다.주요 목적은 데이터 레이크 환경에서의 안정적 버저닝 및 협업 지..

Topic 2025.09.14

데이터 관리 및 저장 아키텍처

개요디지털 전환이 가속화되면서 조직의 데이터 생성량과 다양성이 기하급수적으로 증가하고 있습니다. 이에 따라 데이터를 효율적으로 수집, 처리, 저장, 활용하기 위한 체계적인 구조가 필요하며, 그 핵심이 바로 데이터 관리 및 저장 아키텍처입니다. 본 글에서는 전통적 데이터웨어하우스부터 클라우드 네이티브 스토리지, 레이크하우스 아키텍처 등 최신 트렌드까지 포함하여 데이터 저장 전략의 흐름과 구성 요소, 기술 적용 사례를 종합적으로 설명합니다.1. 개념 및 정의데이터 아키텍처는 조직 내 데이터가 어떻게 수집되고 저장되며 흐르고, 접근되고 분석되는지를 정의하는 기술적·논리적 구조입니다.데이터 저장 아키텍처는 특히 데이터를 물리적으로 저장하고 관리하는 계층으로, 구조화/비정형 데이터, 접근 속도, 확장성 등을 고려..

Topic 2025.08.24

Zero-ETL Architecture (ZETLA)

개요전통적인 데이터 분석 환경에서는 ETL(Extract-Transform-Load) 프로세스가 필수였다. 하지만 이 과정은 느리고 복잡하며, 실시간성 확보가 어렵다는 근본적 한계를 가진다. 이에 따라 등장한 개념이 **Zero-ETL Architecture (ZETLA)**이다.ZETLA는 데이터 소스에서 분석 시스템까지 별도의 ETL 과정 없이 실시간으로 데이터를 연동·처리하는 구조다. 이는 데이터 파이프라인을 단순화하고, 비즈니스 민첩성과 운영 효율성을 극대화하는 차세대 데이터 아키텍처로 주목받고 있다.1. 개념 및 정의 항목 설명 정의ZETLA는 별도의 ETL 단계 없이 운영 데이터가 실시간 분석 시스템에 자동 연동되는 데이터 아키텍처이다.목적데이터 복제 및 변환 없이 통합 분석 환경 구현필요성..

Topic 2025.08.08

Iceberg REST Catalog (IRC)

개요Iceberg REST Catalog(IRC)는 Apache Iceberg에서 정의한 RESTful API 기반 메타데이터 카탈로그 프로토콜로, 다양한 클라이언트(엔진, 도구, 서비스)가 Iceberg 테이블에 대한 메타데이터를 표준 방식으로 접근할 수 있도록 지원하는 컴포넌트입니다. 기존 Hive Metastore의 한계를 극복하고, REST 기반의 클라우드 친화적, 확장 가능한 메타데이터 서비스 아키텍처로 전환하는 핵심 기술로 주목받고 있습니다.1. 개념 및 정의IRC는 Apache Iceberg의 테이블, 스냅샷, 분할(partition), 메타데이터 파일 등 객체들에 대한 읽기/쓰기 인터페이스를 REST API로 제공하는 카탈로그 서비스입니다.이로써 Presto, Trino, Spark, Fl..

Topic 2025.07.26

ClickHouse Lake (CHL)

개요ClickHouse Lake(CHL)는 ClickHouse의 새로운 스토리지 아키텍처로, 데이터 레이크와 데이터 웨어하우스의 장점을 결합한 Lakehouse 모델을 기반으로 한다. 분리된 컴퓨트와 스토리지 구조를 바탕으로 대규모 데이터 처리 효율성과 유연성을 확보하며, 클라우드 환경에서의 확장성과 비용 효율성까지 고려한 차세대 분석 플랫폼이다.1. 개념 및 정의 항목 설명 정의ClickHouse Lake는 컴퓨트와 스토리지가 분리된 객체 스토리지 기반의 ClickHouse 확장형 아키텍처목적대규모 데이터 분석의 탄력성과 확장성 확보, Lakehouse 구조 기반 운영필요성기존 ClickHouse 아키텍처의 로컬 디스크 의존성 문제 해소 및 클라우드 최적화 운영 필요2. 특징특징설명기존 ClickHo..

Topic 2025.07.17

One Table (Lakehouse Multi-Engine Table Spec)

개요One Table은 Lakehouse 아키텍처에서 다양한 데이터 처리 엔진과 분석 플랫폼이 하나의 테이블 형식으로 읽고 쓸 수 있도록 지원하는 다중 엔진 호환 테이블 사양(Multi-Engine Table Spec)이다. Apache Iceberg와 Delta Lake 포맷을 상호 운용 가능하게 만드는 사양으로, 개방성과 호환성, 확장성 측면에서 데이터 생태계에 중요한 전환점을 제공한다.1. 개념 및 정의One Table은 데이터가 저장된 단일 테이블을 Iceberg, Delta Lake, Apache Spark, Trino, Flink, Hive, Dremio, Snowflake 등 다양한 엔진이 동일한 규격으로 읽고 쓸 수 있도록 중재하는 메타데이터 구조 및 포맷 인터페이스다. 구성 요소 설명 ..

Topic 2025.06.24

Delta Lake

개요Delta Lake는 기존 데이터 레이크에 ACID 트랜잭션, 버전 관리, 스키마 강제 등의 기능을 추가하여, 안정적이고 신뢰할 수 있는 데이터 처리 환경을 제공하는 오픈소스 스토리지 레이어이다. Databricks에서 주도하며, Apache Spark 및 Lakehouse 아키텍처의 핵심 구성요소로 채택되고 있다.1. 개념 및 정의 항목 내용 정의Apache Spark 기반 데이터 레이크에 트랜잭션, 스키마 관리, 데이터 버전 기능을 추가한 스토리지 포맷 및 레이어형식Parquet + 트랜잭션 로그(_delta_log) 기반 스토리지주체Databricks 주도, Linux Foundation Project 참여Delta Lake는 "데이터 레이크의 유연성"과 "데이터 웨어하우스의 신뢰성"을 결합한..

Topic 2025.06.21

Apache Iceberg Merge-On-Read (MoR)

개요Apache Iceberg의 Merge-On-Read(MoR) 모드는 데이터 레이크 환경에서 업데이트 및 삭제와 같은 변경 작업을 수행할 때, 기존 데이터 파일을 직접 수정하지 않고 별도 위치에 기록한 후, 쿼리 시점에 해당 변경 사항을 병합하여 읽는 전략입니다. 이를 통해 실시간 처리가 필요한 대용량 데이터 분석에서 고성능 쓰기와 최신 상태 조회를 동시에 달성할 수 있습니다.1. 개념 및 정의 항목 설명 정의Iceberg 테이블에서 업데이트/삭제를 별도 파일로 저장하고, 쿼리 시점에 기존 파일과 병합하여 읽는 쓰기 모드주요 목적데이터 수정을 즉시 반영하면서도, 원본 파일의 재작성 비용 최소화활용 환경데이터 웨어하우스, 스트리밍 ETL, 실시간 리포팅 등MoR은 Copy-On-Write(COW)보다..

Topic 2025.06.12

lakeFS

개요lakeFS는 데이터레이크를 위한 오픈소스 버전 관리 시스템으로, Git과 유사한 브랜치 및 커밋 기능을 지원하여 대규모 데이터 작업의 신뢰성과 재현성을 보장합니다. 데이터 엔지니어와 사이언티스트는 코드처럼 데이터를 안전하게 관리하고, 실험과 배포 과정을 체계적으로 운영할 수 있습니다.1. 개념 및 정의 항목 설명 정의객체 저장소(S3, GCS 등) 위에서 데이터 버전 관리를 제공하는 시스템목적데이터 변경을 추적 가능하게 하고, 안전한 실험 및 롤백 환경 제공주요 특징커밋, 브랜치, 머지, 리버트 등 Git과 유사한 기능 지원lakeFS는 데이터 신뢰성과 거버넌스를 동시에 확보할 수 있는 플랫폼으로 주목받고 있습니다.2. 특징특징설명기대 효과브랜치 기반 워크플로우데이터 환경을 코드처럼 관리실험/운영..

Topic 2025.05.27

데이터 저장 기술(Data Storage Technologies)

개요데이터가 폭발적으로 증가하면서, 다양한 형태의 데이터를 안정적이고 확장 가능하게 저장하는 기술이 점점 더 중요해지고 있습니다. 텍스트, 이미지, 센서, 로그, 트랜잭션 등 이질적인 데이터를 저장하기 위해 기존의 RDBMS를 넘어서 객체 저장소, NoSQL, 데이터 레이크, 파일 시스템 등 다양한 저장 기술이 등장했습니다. 이 글에서는 현대 데이터 환경에서 사용되는 주요 저장 기술과 그 특징, 선택 전략을 정리합니다.1. 데이터 저장이란? 항목 설명 정의생성된 데이터를 일정 기간 안정적으로 보존하고, 조회·분석할 수 있게 저장하는 기술적 기반목적데이터 보존, 처리 성능 확보, 검색 용이성, 보안·복구주요 고려 요소데이터 유형, 저장 용량, 확장성, 접근 속도, 비용, 정합성저장은 데이터 라이프사이클의..

Topic 2025.04.21

빅데이터(Big Data) & 빅데이터 2.0

개요'빅데이터'는 대량의 데이터를 수집·저장·분석하여 인사이트를 도출하는 기술과 방법론을 의미하며, 2010년대 초부터 산업 전반에서 디지털 혁신을 이끌어왔습니다. 하지만 정형·비정형 데이터를 저장하는 데 그치지 않고, AI 기반의 실시간 분석과 자동화된 의사결정까지 요구되는 시대가 도래하면서 '빅데이터 2.0' 개념이 주목받고 있습니다. 본 포스트에서는 빅데이터와 빅데이터 2.0의 개념, 기술 차이, 아키텍처, 활용 사례 등을 비교 분석합니다.1. 빅데이터(Big Data)란? 항목 설명 정의대용량, 고속, 다양한 형태의 데이터를 저장하고 분석하는 기술 및 환경특징3V(Volume, Velocity, Variety) → 이후 5V(Veracity, Value)로 확장주요 기술Hadoop, HDFS, ..

Topic 2025.04.21

Lakehouse(레이크하우스)

개요Lakehouse(레이크하우스)는 데이터 레이크(Data Lake)의 유연성과 데이터 웨어하우스(Data Warehouse)의 구조화된 분석 기능을 결합한 차세대 데이터 아키텍처입니다. 방대한 양의 정형, 반정형, 비정형 데이터를 하나의 플랫폼에서 저장하고 분석할 수 있도록 하며, 비용 효율성과 확장성, 실시간 분석 기능을 동시에 갖춘 혁신적 접근 방식으로 주목받고 있습니다.1. 개념 및 정의Lakehouse는 데이터 레이크 기반의 대용량 저장 구조에, 웨어하우스급 ACID 트랜잭션, 카탈로그, BI 호환성 등의 기능을 결합하여, 하나의 통합 플랫폼에서 데이터 처리와 분석을 모두 수행할 수 있도록 하는 아키텍처입니다.핵심 목적:데이터 중복 제거: 레이크와 웨어하우스 이중 유지 문제 해결실시간 분석 가..

Topic 2025.04.05

ITPE * JackerLab

데이터레이크 18

티스토리툴바

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30