728x90
반응형

Airflow 5

Amundsen

개요Amundsen은 Lyft에서 개발한 오픈소스 메타데이터 검색 및 카탈로그 플랫폼으로, 사용자들이 조직 내에서 신뢰할 수 있는 데이터를 쉽게 탐색, 검색, 이해할 수 있도록 지원한다. 자동화된 메타데이터 수집, 직관적인 검색 인터페이스, 계보(Lineage) 시각화 등을 통해 데이터 거버넌스 및 셀프서비스 분석 문화 확산에 기여한다.1. 개념 및 정의 항목 내용 정의메타데이터 수집, 검색, 라벨링, 계보 시각화를 제공하는 오픈소스 데이터 카탈로그 플랫폼개발 주체Lyft → Linux Foundation AI & Data 프로젝트 편입아키텍처Metadata + Search + Frontend로 구성된 모듈형 구조Amundsen은 Google-like 검색 경험을 메타데이터에 적용한 것이 특징이다.2...

Topic 2025.06.21

OpenLineage

개요OpenLineage는 데이터 파이프라인의 흐름을 추적하고 분석할 수 있도록 돕는 오픈소스 메타데이터 표준 프레임워크입니다. 데이터의 생산부터 소비까지의 경로(Lineage)를 표준화된 방식으로 수집·분석함으로써 데이터 품질, 거버넌스, 디버깅에 핵심 역할을 합니다. 본 글에서는 OpenLineage의 구조, 주요 기능, 기술 요소 및 활용 방안을 심층적으로 소개합니다.1. 개념 및 정의 항목 설명 정의데이터 워크플로우 내에서 발생하는 메타데이터를 수집하여, 데이터 이동 경로를 표준화된 방식으로 기록하는 오픈소스 프로젝트주요 목적데이터 파이프라인 추적, 품질 관리, 오류 진단 자동화배경Marquez 프로젝트 기반, LF AI & Data 재단 주도OpenLineage는 Airflow, Spark, ..

Topic 2025.06.11

Apache Airflow DAG-Orchestration

개요Apache Airflow는 복잡한 데이터 파이프라인의 실행을 자동화하고 모니터링할 수 있도록 지원하는 오픈소스 워크플로우 오케스트레이션 툴입니다. DAG(Directed Acyclic Graph)를 기반으로 각 작업의 순서와 종속성을 명시적으로 정의함으로써, 데이터 엔지니어링, ETL, 머신러닝 파이프라인의 효율성과 가시성을 크게 향상시킵니다.1. 개념 및 정의 항목 설명 비고 정의DAG 기반으로 태스크의 실행 흐름과 종속성을 정의하는 워크플로우 오케스트레이션 방식Directed Acyclic Graph 구조목적데이터 파이프라인의 자동화, 재현성, 모니터링 확보운영 효율성과 장애 대응력 강화필요성수작업 스케줄링, 태스크 실패 복구, 조건 분기 등의 요구 대응확장성과 안정성 확보 필수Airflow..

Topic 2025.06.10

데이터 후처리 기술(Data Postprocessing Technologies)

개요데이터 후처리는 분석, 예측, 시뮬레이션 등의 결과를 인사이트로 전환하거나 사용자에게 전달 가능하게 가공하는 과정입니다. 모델의 출력값, 분석 통계, 예측 결과를 정제·해석·변환해 비즈니스에 바로 활용할 수 있도록 만드는 것이 핵심입니다. 이 글에서는 데이터 후처리의 주요 목적, 기법, 도구, 실무 적용 전략을 정리합니다.1. 데이터 후처리란? 항목 설명 정의모델 또는 분석 처리 결과를 해석 가능한 형태로 정제·가공하는 작업목적사용자 전달, 시각화, 리포팅, 알림 연계, 예외 필터링 등적용 위치머신러닝 결과 처리, 통계 요약, 예측 후 필터링, 리포트 생성 등후처리는 단순한 출력이 아닌, 데이터를 이해 가능한 정보로 바꾸는 과정입니다.2. 주요 후처리 기법분류기법설명예측 결과 변환이진→범주, sof..

Topic 2025.04.21

데이터 오케스트레이션(Data Orchestration)

개요데이터 오케스트레이션(Data Orchestration)은 다양한 출처와 포맷으로 존재하는 데이터를 수집, 처리, 이동, 통합하는 전체 작업을 일관되게 자동화하고 관리하는 기술이다. 단순한 ETL 또는 파이프라인 구성보다 더 상위 개념으로, 데이터 작업 흐름의 '지휘자' 역할을 수행한다. 본 글에서는 데이터 오케스트레이션의 정의, 특징, 구성 요소, 기술 스택, 그리고 실제 활용 사례를 중심으로 그 중요성과 효과를 분석한다.1. 개념 및 정의데이터 오케스트레이션은 분산된 데이터 소스 간의 흐름을 통합하고, 복잡한 데이터 작업들을 자동화하여, 적시에 필요한 위치로 데이터를 이동시키는 전사적 데이터 운영 전략이다. 주로 워크플로우 기반으로 설계되며, 다양한 시스템 간의 의존성을 고려한 실행 순서를 제어할..

Topic 2025.03.27
728x90
반응형