728x90
반응형

delta lake 6

Lakehouse Federation Query Engine (LFQE)

개요Lakehouse Federation Query Engine(LFQE)는 다양한 데이터 소스를 단일 인터페이스를 통해 통합적으로 질의할 수 있도록 지원하는 차세대 분석 엔진입니다. 특히 레이크하우스 아키텍처 위에서 작동하며, 데이터 웨어하우스와 데이터 레이크 간의 장점을 결합한 구조를 갖추고 있어 기업의 데이터 분석 효율을 극대화합니다. 본 글에서는 LFQE의 개념, 구조, 기술 요소 및 활용 사례를 상세히 분석합니다.1. 개념 및 정의 항목 내용 비고 정의이기종 데이터 소스를 통합 질의하는 분산형 질의 엔진다양한 커넥터 지원목적레이크하우스 환경에서 실시간 분석 및 연합 쿼리 수행성능과 유연성 확보필요성여러 데이터 저장소를 하나의 논리적 단위로 조회 가능데이터 사일로 해소LFQE는 Delta La..

Topic 2025.08.15

Zero-Copy Data Lake

개요데이터가 폭발적으로 증가하고 조직 간 협업 및 분석 수요가 커지면서, 데이터 레이크(Data Lake)의 구조 또한 진화하고 있습니다. 특히 데이터를 복제하지 않고 여러 워크로드에서 공유할 수 있는 Zero-Copy Data Lake 아키텍처가 주목받고 있습니다. 이 구조는 데이터 이동 없이 다양한 분석 및 머신러닝 워크로드에 동일한 데이터를 활용할 수 있도록 하여, 비용 절감과 거버넌스 강화를 동시에 실현합니다.1. 개념 및 정의Zero-Copy Data Lake란 데이터를 별도로 복사(copy)하지 않고, 단일 저장소에서 다양한 분석 시스템이나 팀이 해당 데이터를 공유·활용할 수 있는 데이터 레이크 아키텍처입니다.전통적인 방식에서는 데이터를 이동하거나 복제하여 팀별로 보유하였지만, Zero-Cop..

Topic 2025.07.16

Virtual Time Travel

개요Virtual Time Travel(VTT)은 데이터 분석, 시뮬레이션, 머신러닝 모델 검증에서 특정 시간 지점을 기준으로 과거 또는 미래 상태를 가상 재현하는 기술이다. 주로 시계열 데이터 환경에서 적용되며, 데이터 재현성, 모델 회귀 테스트, 백테스팅(backtesting) 등 데이터 품질과 분석 정확도를 높이는 데 중요한 역할을 한다.1. 개념 및 정의Virtual Time Travel은 데이터 시스템 또는 분석 환경 내에서 시간 축을 이동하여 과거 상태의 데이터, 모델 상태, 시스템 출력을 그대로 재현하거나 시뮬레이션할 수 있도록 하는 기능이다.목적: 시간 기준 분석의 재현성과 정확성을 확보하여 분석 결과의 신뢰도 강화필요성: 시계열 기반 모델 검증, A/B 테스트 회귀, 데이터 품질 추적에 ..

Topic 2025.07.12

Delta Sharing

개요Delta Sharing은 다양한 플랫폼 간에 안전하고 효율적으로 데이터를 공유할 수 있도록 설계된 오픈 소스 데이터 공유 프로토콜입니다. Databricks에서 주도하여 개발되었으며, Delta Lake 포맷을 기반으로 하되 Apache Arrow, Parquet 등의 오픈 포맷과 호환되는 구조로, 조직 간 실시간 데이터 협업과 분석을 가능하게 합니다. 데이터 레이크에서 직접 데이터를 공유함으로써 복잡한 ETL, 복사 작업 없이 효율적인 데이터 활용이 가능합니다.1. 개념 및 정의 항목 설명 정의Delta Sharing은 오픈 포맷 데이터를 다양한 클라이언트와 안전하게 공유하기 위한 REST 기반 프로토콜입니다.목적플랫폼, 언어, 클라우드 환경과 무관한 안전하고 통합된 데이터 공유 실현필요성사일로..

Topic 2025.05.15

CAEP (Continuous Access Evaluation Protocol)

개요CAEP(Continuous Access Evaluation Protocol)은 클라우드 기반 보안 환경에서 사용자나 디바이스의 상태 변화에 따라 실시간으로 액세스 권한을 재평가할 수 있도록 설계된 개방형 보안 프로토콜입니다. OAuth 2.0과 OpenID Connect를 기반으로 하며, 토큰 유효 기간에 의존하지 않고 동적으로 정책 변경이나 리스크 이벤트를 반영하여 세션을 관리할 수 있게 해 줍니다. Microsoft, Google, Cisco, Okta 등이 참여한 OpenID Foundation WG에서 표준화가 진행되고 있습니다.1. 개념 및 정의 항목 설명 정의CAEP는 사용자 상태 변화나 정책 변경에 따라 인증 세션을 실시간으로 무효화하거나 재검토하는 프로토콜입니다.목적동적 정책 반영과..

Topic 2025.05.14

Lakehouse Architecture

개요Lakehouse Architecture는 데이터 레이크(Data Lake)의 확장성과 유연성과, 데이터 웨어하우스(Data Warehouse)의 구조화·신뢰성·고성능 분석 기능을 결합한 차세대 통합 분석 아키텍처입니다. 데이터 사일로를 해소하고, 단일 저장소에서 배치·스트리밍·ML 분석까지 아우를 수 있도록 설계되어, 현대적인 데이터 엔지니어링의 핵심 모델로 주목받고 있습니다.1. 개념 및 정의Lakehouse Architecture는 구조화/반구조화/비구조화 데이터를 데이터 레이크에 저장하면서도, 데이터 웨어하우스 수준의 신뢰성과 쿼리 성능을 제공하는 통합 아키텍처입니다.기반 기술: 클라우드 오브젝트 스토리지 + 오픈 포맷 (예: Parquet, Delta, Iceberg)데이터 통합: 단일 위치..

Topic 2025.05.06
728x90
반응형