728x90
반응형

Databricks 8

Delta Live Tables (DLT)

개요Delta Live Tables(DLT)는 Databricks에서 제공하는 스트리밍 및 배치 데이터 파이프라인의 구축, 운영, 관리를 자동화하는 프레임워크입니다. SQL 또는 Python으로 정의한 선언적 파이프라인을 기반으로, 데이터 품질, 검증, 자동화된 오류 복구, 모니터링 기능을 통합 제공하며, 데이터 팀이 신뢰할 수 있는 실시간 분석 환경을 빠르게 구축할 수 있도록 돕습니다.1. 개념 및 정의DLT는 Delta Lake 기반의 데이터 파이프라인을 코드 선언만으로 자동화된 워크플로우로 변환하는 기능입니다.SQL 및 Python 기반의 선언형 데이터 정의 (DSL)자동 검사, 모니터링, 오류 복구 내장데이터 품질 규칙 기대(expectations) 정의 가능2. 주요 기능 및 특징 기능 설명 ..

Topic 2025.06.26

Delta Lake

개요Delta Lake는 기존 데이터 레이크에 ACID 트랜잭션, 버전 관리, 스키마 강제 등의 기능을 추가하여, 안정적이고 신뢰할 수 있는 데이터 처리 환경을 제공하는 오픈소스 스토리지 레이어이다. Databricks에서 주도하며, Apache Spark 및 Lakehouse 아키텍처의 핵심 구성요소로 채택되고 있다.1. 개념 및 정의 항목 내용 정의Apache Spark 기반 데이터 레이크에 트랜잭션, 스키마 관리, 데이터 버전 기능을 추가한 스토리지 포맷 및 레이어형식Parquet + 트랜잭션 로그(_delta_log) 기반 스토리지주체Databricks 주도, Linux Foundation Project 참여Delta Lake는 "데이터 레이크의 유연성"과 "데이터 웨어하우스의 신뢰성"을 결합한..

Topic 2025.06.21

Unity Catalog

개요Unity Catalog는 Databricks에서 제공하는 통합 데이터 거버넌스 솔루션으로, 조직의 모든 데이터 자산에 대한 중앙 집중적 카탈로그, 권한 관리, 감사 추적, 계보(라인리지) 정보를 제공하는 메타데이터 관리 플랫폼이다. Lakehouse 아키텍처에 최적화되어 있으며, 데이터 엔지니어, 분석가, 보안 관리자 모두를 위한 단일 관리 체계를 실현한다.1. 개념 및 정의 항목 설명 정의Databricks 내의 테이블, 뷰, 파일, ML 모델 등에 대한 메타데이터, 권한, 라인리지 등을 중앙 관리하는 플랫폼역할데이터 거버넌스, 카탈로그 관리, 접근 제어, 감사 로깅 제공대상 환경Databricks Lakehouse, Delta Lake 기반 워크스페이스 전반Unity Catalog는 Azure..

Topic 2025.06.21

Delta Sharing

개요Delta Sharing은 다양한 플랫폼 간에 안전하고 효율적으로 데이터를 공유할 수 있도록 설계된 오픈 소스 데이터 공유 프로토콜입니다. Databricks에서 주도하여 개발되었으며, Delta Lake 포맷을 기반으로 하되 Apache Arrow, Parquet 등의 오픈 포맷과 호환되는 구조로, 조직 간 실시간 데이터 협업과 분석을 가능하게 합니다. 데이터 레이크에서 직접 데이터를 공유함으로써 복잡한 ETL, 복사 작업 없이 효율적인 데이터 활용이 가능합니다.1. 개념 및 정의 항목 설명 정의Delta Sharing은 오픈 포맷 데이터를 다양한 클라이언트와 안전하게 공유하기 위한 REST 기반 프로토콜입니다.목적플랫폼, 언어, 클라우드 환경과 무관한 안전하고 통합된 데이터 공유 실현필요성사일로..

Topic 2025.05.15

CAEP (Continuous Access Evaluation Protocol)

개요CAEP(Continuous Access Evaluation Protocol)은 클라우드 기반 보안 환경에서 사용자나 디바이스의 상태 변화에 따라 실시간으로 액세스 권한을 재평가할 수 있도록 설계된 개방형 보안 프로토콜입니다. OAuth 2.0과 OpenID Connect를 기반으로 하며, 토큰 유효 기간에 의존하지 않고 동적으로 정책 변경이나 리스크 이벤트를 반영하여 세션을 관리할 수 있게 해 줍니다. Microsoft, Google, Cisco, Okta 등이 참여한 OpenID Foundation WG에서 표준화가 진행되고 있습니다.1. 개념 및 정의 항목 설명 정의CAEP는 사용자 상태 변화나 정책 변경에 따라 인증 세션을 실시간으로 무효화하거나 재검토하는 프로토콜입니다.목적동적 정책 반영과..

Topic 2025.05.14

Lakehouse Architecture

개요Lakehouse Architecture는 데이터 레이크(Data Lake)의 확장성과 유연성과, 데이터 웨어하우스(Data Warehouse)의 구조화·신뢰성·고성능 분석 기능을 결합한 차세대 통합 분석 아키텍처입니다. 데이터 사일로를 해소하고, 단일 저장소에서 배치·스트리밍·ML 분석까지 아우를 수 있도록 설계되어, 현대적인 데이터 엔지니어링의 핵심 모델로 주목받고 있습니다.1. 개념 및 정의Lakehouse Architecture는 구조화/반구조화/비구조화 데이터를 데이터 레이크에 저장하면서도, 데이터 웨어하우스 수준의 신뢰성과 쿼리 성능을 제공하는 통합 아키텍처입니다.기반 기술: 클라우드 오브젝트 스토리지 + 오픈 포맷 (예: Parquet, Delta, Iceberg)데이터 통합: 단일 위치..

Topic 2025.05.06

MLflow(엠엘플로우)

개요MLflow는 머신러닝 라이프사이클 전반을 관리하는 오픈소스 플랫폼으로, 실험 추적, 모델 저장 및 배포, 파이프라인 자동화 등을 지원하는 MLOps 핵심 도구입니다. 데이터 과학자와 ML 엔지니어가 반복적인 실험과 모델 배포를 체계적이고 재현 가능하게 만들 수 있도록 돕습니다. 이 글에서는 MLflow의 핵심 구성 요소와 사용 사례를 소개합니다.1. 개념 및 정의MLflow는 Databricks에서 개발한 머신러닝 운영 자동화(MLOps) 플랫폼입니다. 머신러닝 실험을 체계적으로 관리하고, 모델을 버전별로 저장하며, 다양한 환경에서 재사용 가능한 형태로 모델을 배포할 수 있도록 설계되었습니다. 파이썬, R, Java 등을 지원하며, 클라우드 및 온프레미스 환경에서 유연하게 운용됩니다.2. 특징 구분..

Topic 2025.04.08

Lakehouse(레이크하우스)

개요Lakehouse(레이크하우스)는 데이터 레이크(Data Lake)의 유연성과 데이터 웨어하우스(Data Warehouse)의 구조화된 분석 기능을 결합한 차세대 데이터 아키텍처입니다. 방대한 양의 정형, 반정형, 비정형 데이터를 하나의 플랫폼에서 저장하고 분석할 수 있도록 하며, 비용 효율성과 확장성, 실시간 분석 기능을 동시에 갖춘 혁신적 접근 방식으로 주목받고 있습니다.1. 개념 및 정의Lakehouse는 데이터 레이크 기반의 대용량 저장 구조에, 웨어하우스급 ACID 트랜잭션, 카탈로그, BI 호환성 등의 기능을 결합하여, 하나의 통합 플랫폼에서 데이터 처리와 분석을 모두 수행할 수 있도록 하는 아키텍처입니다.핵심 목적:데이터 중복 제거: 레이크와 웨어하우스 이중 유지 문제 해결실시간 분석 가..

Topic 2025.04.05
728x90
반응형