728x90
반응형

Marquez 3

Marquez

개요Marquez는 데이터 파이프라인 전반의 메타데이터를 수집하고, 데이터 계보(Data Lineage)를 시각화 및 추적할 수 있도록 지원하는 오픈소스 플랫폼입니다. 주로 Apache Airflow, dbt, Spark 등과 통합되어 사용되며, 데이터의 생산부터 소비까지 전체 흐름을 추적하여 품질 관리, 데이터 거버넌스, 문제 진단을 가능하게 합니다.1. 개념 및 정의 항목 내용 비고 정의데이터 파이프라인 내 작업(Job)과 데이터셋 간 관계를 추적하는 메타데이터 서비스LF AI & Data 프로젝트목적데이터 흐름 시각화 및 영향도 분석, 거버넌스 대응ETL/ELT 관리 효율화적용 분야데이터 엔지니어링, 데이터 거버넌스, 감사(Audit)데이터 플랫폼 전반2. 특징항목설명비고OpenLineage 기..

Topic 2025.10.25

OpenLineage Column-Level Lineage (CLL)

개요데이터 분석, 머신러닝, 리포팅 등 데이터 기반 업무가 고도화되면서, 데이터가 **어디서 왔고, 어떻게 변형되었는지 추적하는 계보(lineage)**에 대한 중요성이 증가하고 있습니다. 특히 컬럼 단위까지 추적 가능한 **Column-Level Lineage(CLL)**는 데이터 품질, 규제 대응, 디버깅, 거버넌스에 필수 요소로 부상하고 있습니다. 이에 대한 오픈소스 표준으로 OpenLineage의 CLL 확장 기능이 주목받고 있으며, 본 글에서는 그 개념, 아키텍처, 구현 방식, 도입 효과를 심층 분석합니다.1. 개념 및 정의OpenLineage는 데이터 계보를 자동 수집하고 표준화된 메타데이터로 기록·공유할 수 있도록 설계된 오픈소스 메타데이터 표준 및 API 규격입니다.**Column-Leve..

Topic 2025.08.24

OpenLineage

개요OpenLineage는 데이터 파이프라인의 흐름을 추적하고 분석할 수 있도록 돕는 오픈소스 메타데이터 표준 프레임워크입니다. 데이터의 생산부터 소비까지의 경로(Lineage)를 표준화된 방식으로 수집·분석함으로써 데이터 품질, 거버넌스, 디버깅에 핵심 역할을 합니다. 본 글에서는 OpenLineage의 구조, 주요 기능, 기술 요소 및 활용 방안을 심층적으로 소개합니다.1. 개념 및 정의 항목 설명 정의데이터 워크플로우 내에서 발생하는 메타데이터를 수집하여, 데이터 이동 경로를 표준화된 방식으로 기록하는 오픈소스 프로젝트주요 목적데이터 파이프라인 추적, 품질 관리, 오류 진단 자동화배경Marquez 프로젝트 기반, LF AI & Data 재단 주도OpenLineage는 Airflow, Spark, ..

Topic 2025.06.11
728x90
반응형