728x90
반응형

데이터 레이크 4

Lakehouse Architecture

개요Lakehouse Architecture는 데이터 레이크(Data Lake)의 확장성과 유연성과, 데이터 웨어하우스(Data Warehouse)의 구조화·신뢰성·고성능 분석 기능을 결합한 차세대 통합 분석 아키텍처입니다. 데이터 사일로를 해소하고, 단일 저장소에서 배치·스트리밍·ML 분석까지 아우를 수 있도록 설계되어, 현대적인 데이터 엔지니어링의 핵심 모델로 주목받고 있습니다.1. 개념 및 정의Lakehouse Architecture는 구조화/반구조화/비구조화 데이터를 데이터 레이크에 저장하면서도, 데이터 웨어하우스 수준의 신뢰성과 쿼리 성능을 제공하는 통합 아키텍처입니다.기반 기술: 클라우드 오브젝트 스토리지 + 오픈 포맷 (예: Parquet, Delta, Iceberg)데이터 통합: 단일 위치..

Topic 2025.05.06

Zero-Copy ETL

개요Zero-Copy ETL은 데이터 복제(Copy)를 최소화하거나 제거하고, 원본 데이터 소스에 직접 연결하여 실시간 또는 거의 실시간으로 변환(Transform) 및 로딩(Load)을 수행하는 ETL(Extract-Transform-Load) 전략입니다. 전통적 ETL이 대규모 데이터 복제와 이관을 전제로 하는 반면, Zero-Copy ETL은 성능, 비용, 데이터 거버넌스 측면에서 혁신적 이점을 제공합니다.1. 개념 및 정의 항목 내용 정의데이터 소스를 복제하지 않고, 원본 데이터에 직접 접근하여 변환 및 로딩을 수행하는 데이터 통합 접근 방식목적스토리지 비용 절감, 데이터 최신성 유지, 거버넌스 리스크 감소필요성데이터 폭증, 복제 비용 증가, 데이터 일관성 및 신뢰성 확보 요구 대응Zero-Co..

Topic 2025.05.05

데이터 웨어하우스(DWH) 및 데이터 레이크(Data Lake)

개요데이터 웨어하우스(Data Warehouse, DWH)와 데이터 레이크(Data Lake)는 기업의 데이터 저장, 관리 및 분석을 최적화하는 핵심 기술입니다. 데이터 웨어하우스는 구조화된 데이터의 집약적인 분석을 위한 저장소, 데이터 레이크는 정형 및 비정형 데이터를 유연하게 저장하고 처리하는 시스템으로, 빅데이터 시대의 필수 요소로 자리 잡고 있습니다.1. 데이터 웨어하우스(DWH)란?데이터 웨어하우스는 다양한 출처에서 데이터를 수집하여 정리된 상태로 저장하고, 빠른 분석을 지원하는 중앙 집중형 데이터 저장소입니다.1.1 데이터 웨어하우스의 주요 특징정형 데이터 중심: SQL 기반 관계형 데이터 저장 및 관리ETL(Extract, Transform, Load) 프로세스 적용: 데이터를 정제하고 변환..

Topic 2025.03.07

빅데이터 프레임워크 (Hadoop, Spark)

개요빅데이터 프레임워크는 대용량 데이터를 저장, 처리 및 분석하기 위한 분산 컴퓨팅 기술입니다. 대표적인 빅데이터 프레임워크로는 Apache Hadoop과 Apache Spark가 있으며, 이들은 데이터 웨어하우스, 머신러닝, 실시간 데이터 분석 등 다양한 분야에서 활용됩니다. Hadoop은 배치 처리(Batch Processing)에 최적화된 분산 저장 및 연산 기술을 제공하며, Spark는 메모리 기반의 고속 데이터 처리를 지원하여 실시간 분석을 가능하게 합니다.1. 빅데이터 프레임워크란?빅데이터 프레임워크는 대량의 데이터를 분산된 환경에서 효과적으로 저장하고 처리할 수 있도록 설계된 시스템입니다. **전통적인 데이터베이스 시스템(RDBMS)**과는 달리, 수십~수백 테라바이트(TB) 이상의 데이터를..

Topic 2025.03.05
728x90
반응형