728x90
반응형

데이터 플랫폼 3

Zero-Copy Data Lake

개요데이터가 폭발적으로 증가하고 조직 간 협업 및 분석 수요가 커지면서, 데이터 레이크(Data Lake)의 구조 또한 진화하고 있습니다. 특히 데이터를 복제하지 않고 여러 워크로드에서 공유할 수 있는 Zero-Copy Data Lake 아키텍처가 주목받고 있습니다. 이 구조는 데이터 이동 없이 다양한 분석 및 머신러닝 워크로드에 동일한 데이터를 활용할 수 있도록 하여, 비용 절감과 거버넌스 강화를 동시에 실현합니다.1. 개념 및 정의Zero-Copy Data Lake란 데이터를 별도로 복사(copy)하지 않고, 단일 저장소에서 다양한 분석 시스템이나 팀이 해당 데이터를 공유·활용할 수 있는 데이터 레이크 아키텍처입니다.전통적인 방식에서는 데이터를 이동하거나 복제하여 팀별로 보유하였지만, Zero-Cop..

Topic 2025.07.16

Substrait (Portable SQL IR)

개요현대 데이터 분석 환경은 다양한 SQL 기반 시스템들(예: Spark, Trino, DuckDB, ClickHouse 등)이 공존하면서, 쿼리 논리 구조와 실행 계획의 이식성(portability) 문제가 부각되고 있습니다. 이러한 문제를 해결하기 위해 등장한 것이 Substrait입니다. Substrait는 SQL 쿼리의 의미적 표현을 추상화한 중간 표현(IR: Intermediate Representation) 포맷으로, 서로 다른 엔진 간 쿼리 공유, 최적화, 실행을 가능하게 하는 범용 쿼리 정의 표준입니다.1. 개념 및 정의Substrait는 SQL을 비롯한 선언적 쿼리 언어를 공통된 중간 형식으로 변환하여, 서로 다른 분석 시스템 간 논리적 쿼리 표현, 최적화 계획, 실행 연산자 정의를 통일..

Topic 2025.05.25

데이터 플랫폼 서비스(DPaaS, Data Platform as a Service)

개요데이터 플랫폼 서비스(DPaaS, Data Platform as a Service)는 데이터 수집, 저장, 처리, 분석 및 공유를 위한 클라우드 기반 솔루션이다. 기업과 조직이 복잡한 데이터 인프라를 직접 구축하지 않고도, 효율적인 데이터 관리 및 분석 환경을 제공받을 수 있도록 지원한다. 본 글에서는 DPaaS의 개념, 주요 특징, 활용 사례, 장점과 한계, 그리고 미래 전망을 살펴본다.1. 데이터 플랫폼 서비스(DPaaS)란?DPaaS는 데이터 중심의 서비스 모델로, 데이터의 저장, 처리, 분석, 보안, 공유 기능을 클라우드에서 제공하는 플랫폼이다. 기업은 DPaaS를 통해 데이터 인프라를 직접 운영할 필요 없이, 클라우드 환경에서 손쉽게 데이터 관리를 수행할 수 있다.1.1 기존 데이터 관리 방..

Topic 2025.03.23
728x90
반응형