728x90
반응형

데이터파이프라인 10

Delta Live Tables (DLT)

개요Delta Live Tables(DLT)는 Databricks에서 제공하는 스트리밍 및 배치 데이터 파이프라인의 구축, 운영, 관리를 자동화하는 프레임워크입니다. SQL 또는 Python으로 정의한 선언적 파이프라인을 기반으로, 데이터 품질, 검증, 자동화된 오류 복구, 모니터링 기능을 통합 제공하며, 데이터 팀이 신뢰할 수 있는 실시간 분석 환경을 빠르게 구축할 수 있도록 돕습니다.1. 개념 및 정의DLT는 Delta Lake 기반의 데이터 파이프라인을 코드 선언만으로 자동화된 워크플로우로 변환하는 기능입니다.SQL 및 Python 기반의 선언형 데이터 정의 (DSL)자동 검사, 모니터링, 오류 복구 내장데이터 품질 규칙 기대(expectations) 정의 가능2. 주요 기능 및 특징 기능 설명 ..

Topic 2025.06.26

Delta Lake

개요Delta Lake는 기존 데이터 레이크에 ACID 트랜잭션, 버전 관리, 스키마 강제 등의 기능을 추가하여, 안정적이고 신뢰할 수 있는 데이터 처리 환경을 제공하는 오픈소스 스토리지 레이어이다. Databricks에서 주도하며, Apache Spark 및 Lakehouse 아키텍처의 핵심 구성요소로 채택되고 있다.1. 개념 및 정의 항목 내용 정의Apache Spark 기반 데이터 레이크에 트랜잭션, 스키마 관리, 데이터 버전 기능을 추가한 스토리지 포맷 및 레이어형식Parquet + 트랜잭션 로그(_delta_log) 기반 스토리지주체Databricks 주도, Linux Foundation Project 참여Delta Lake는 "데이터 레이크의 유연성"과 "데이터 웨어하우스의 신뢰성"을 결합한..

Topic 2025.06.21

Materialize Streaming SQL

개요Materialize는 기존 배치 중심 데이터 웨어하우스의 한계를 극복하고, SQL을 사용하여 실시간 스트리밍 데이터를 처리할 수 있도록 설계된 현대적 스트리밍 분석 플랫폼이다. PostgreSQL과 호환되는 인터페이스를 제공하며, 복잡한 실시간 쿼리를 선언적 SQL로 작성하고 지속적으로 최신 결과를 유지하는 것이 가능하다.1. 개념 및 정의 항목 내용 정의Kafka, CDC 등 스트리밍 소스로부터 데이터를 수신하고, SQL로 지속적인 쿼리 실행 결과를 제공하는 시스템목적낮은 지연 시간의 스트리밍 분석을 SQL로 간편하게 구현기술 기반differential dataflow, Timely Dataflow 기반 incremental view maintenanceMaterialize는 스트리밍을 SQL ..

Topic 2025.06.20

OpenLineage

개요OpenLineage는 데이터 파이프라인의 흐름을 추적하고 분석할 수 있도록 돕는 오픈소스 메타데이터 표준 프레임워크입니다. 데이터의 생산부터 소비까지의 경로(Lineage)를 표준화된 방식으로 수집·분석함으로써 데이터 품질, 거버넌스, 디버깅에 핵심 역할을 합니다. 본 글에서는 OpenLineage의 구조, 주요 기능, 기술 요소 및 활용 방안을 심층적으로 소개합니다.1. 개념 및 정의 항목 설명 정의데이터 워크플로우 내에서 발생하는 메타데이터를 수집하여, 데이터 이동 경로를 표준화된 방식으로 기록하는 오픈소스 프로젝트주요 목적데이터 파이프라인 추적, 품질 관리, 오류 진단 자동화배경Marquez 프로젝트 기반, LF AI & Data 재단 주도OpenLineage는 Airflow, Spark, ..

Topic 2025.06.11

Apache Airflow DAG-Orchestration

개요Apache Airflow는 복잡한 데이터 파이프라인의 실행을 자동화하고 모니터링할 수 있도록 지원하는 오픈소스 워크플로우 오케스트레이션 툴입니다. DAG(Directed Acyclic Graph)를 기반으로 각 작업의 순서와 종속성을 명시적으로 정의함으로써, 데이터 엔지니어링, ETL, 머신러닝 파이프라인의 효율성과 가시성을 크게 향상시킵니다.1. 개념 및 정의 항목 설명 비고 정의DAG 기반으로 태스크의 실행 흐름과 종속성을 정의하는 워크플로우 오케스트레이션 방식Directed Acyclic Graph 구조목적데이터 파이프라인의 자동화, 재현성, 모니터링 확보운영 효율성과 장애 대응력 강화필요성수작업 스케줄링, 태스크 실패 복구, 조건 분기 등의 요구 대응확장성과 안정성 확보 필수Airflow..

Topic 2025.06.10

Reverse ETL

개요Reverse ETL은 데이터 웨어하우스에 저장된 데이터를 CRM, 마케팅 플랫폼, 협업 툴 등 외부 비즈니스 애플리케이션으로 추출·전송하는 프로세스를 의미합니다. 이는 전통적인 ETL(Extract, Transform, Load)과 방향이 반대이며, 데이터 웨어하우스를 '단순 저장소'가 아닌 '실시간 실행 중심 허브'로 전환시키는 현대적 데이터 아키텍처 항목 설명 비고 정의데이터 웨어하우스에서 데이터를 추출하여 비즈니스 앱으로 전송하는 프로세스ETL의 반대 방향목적운영 시스템에서 직접 데이터 활용 가능하게 함실시간 실행 기반 전환주요 용도마케팅 자동화, 고객 세분화, 영업 데이터 강화 등CDP(Customer Data Platform)와 연계 가능데이터 중심 전략에서 '활용 중심 전략'으로의 패러다..

Topic 2025.06.08

Apache Arrow Flight SQL

개요Apache Arrow Flight SQL은 대용량 데이터 전송을 위한 고속 RPC(Remote Procedure Call) 프로토콜인 Arrow Flight를 기반으로 한 SQL 쿼리 실행 프레임워크입니다. 기존 JDBC/ODBC 방식의 병목을 해결하고, 고속 데이터 파이프라인 및 분산 SQL 처리에 최적화된 데이터 액세스 계층을 제공합니다.1. 개념 및 정의 구분 내용 정의Apache Arrow 기반의 고성능 SQL API로, Arrow Flight 위에 SQL 인터페이스를 구현한 프로토콜목적분산 환경에서 빠르고 효율적인 SQL 질의 처리 및 데이터 전송 지원필요성기존 ODBC/JDBC의 성능 한계와 직렬화/역직렬화 비용 문제 해결2. 특징특징설명차별점Arrow 기반 전송열지향(Columar) ..

Topic 2025.05.18

AI 엔지니어링(AI Engineering)

개요AI 엔지니어링(AI Engineering)은 인공지능 모델을 실제 서비스 및 제품에 안정적이고 지속 가능하게 적용하기 위한 종합적인 엔지니어링 접근법이다. 이는 단순한 모델 개발을 넘어, 운영 환경에서의 지속적 개선, 자동화된 배포, 거버넌스 및 모니터링 등을 포괄한다. 특히 MLOps, 신뢰 가능한 AI, 반복 가능한 학습 파이프라인 등이 중심 요소로 부각되고 있다.1. 개념 및 정의AI 엔지니어링은 AI 모델을 산업 현장에 실제로 통합하고 운영하기 위한 기술, 프로세스, 도구의 총합이다.목적: AI 모델의 일관된 개발, 검증, 배포 및 운영 체계화필요성: PoC 단계를 넘어 실제 프로덕션 환경에서의 안정적 운영 필요성 증가핵심 개념: 지속 가능한 모델 관리, 운영 자동화, 모델 신뢰성 확보2. ..

Topic 2025.04.27

빅데이터 큐레이션(Big Data Curation)

개요빅데이터 큐레이션(Big Data Curation)은 방대한 양의 비정형·정형 데이터를 수집한 이후, 그 중 의미 있고 유의미한 정보를 식별, 분류, 구조화, 맥락화하여 비즈니스 가치로 연결하는 고급 데이터 관리 전략입니다. 이는 데이터 분석의 선행 단계로, 데이터 정제(Data Wrangling)·분류·메타데이터 생성·지식 모델링까지 포함하는 전방위 활동이며, AI와 자동화 기술을 통해 빠르게 고도화되고 있습니다.1. 개념 및 정의 항목 설명 정의다양한 출처의 방대한 데이터를 정리, 필터링, 의미 기반 구조화하여 분석 가능한 상태로 전환하는 프로세스목적데이터 품질 확보, 분석 정확도 향상, 정보 가치 증대키워드데이터 정제, 시맨틱 태깅, 메타데이터, 지식그래프, AI 큐레이션2. 주요 프로세스단계..

Topic 2025.04.23

데이터 파이프라인 서비스(Data Pipeline as a Service)

개요데이터 파이프라인 서비스(Data Pipeline as a Service, DPaaS)는 데이터를 수집, 처리, 저장하는 전체 흐름을 클라우드에서 자동화하고 관리할 수 있도록 지원하는 서비스형 플랫폼이다. 전통적으로 복잡한 구축과 운영이 요구되던 데이터 파이프라인을 추상화하여, 개발자 및 데이터 엔지니어가 핵심 비즈니스 로직에 집중할 수 있도록 돕는다. 이 글에서는 DPaaS의 정의, 특징, 구성 요소, 기술 요소, 주요 서비스, 장점 등을 체계적으로 살펴본다.1. 개념 및 정의DPaaS는 Data Ingestion(수집), ETL/ELT(변환/적재), 데이터 저장, 모니터링, 오류 처리 등을 클라우드 환경에서 관리형 서비스로 제공하는 솔루션이다. 일반적으로 SaaS 또는 PaaS 형태로 제공되며, ..

Topic 2025.03.27
728x90
반응형