728x90
반응형

DBT 6

Amundsen

개요Amundsen은 Lyft에서 개발한 오픈소스 메타데이터 검색 및 카탈로그 플랫폼으로, 사용자들이 조직 내에서 신뢰할 수 있는 데이터를 쉽게 탐색, 검색, 이해할 수 있도록 지원한다. 자동화된 메타데이터 수집, 직관적인 검색 인터페이스, 계보(Lineage) 시각화 등을 통해 데이터 거버넌스 및 셀프서비스 분석 문화 확산에 기여한다.1. 개념 및 정의 항목 내용 정의메타데이터 수집, 검색, 라벨링, 계보 시각화를 제공하는 오픈소스 데이터 카탈로그 플랫폼개발 주체Lyft → Linux Foundation AI & Data 프로젝트 편입아키텍처Metadata + Search + Frontend로 구성된 모듈형 구조Amundsen은 Google-like 검색 경험을 메타데이터에 적용한 것이 특징이다.2...

Topic 2025.06.21

DataHub

개요DataHub는 LinkedIn이 개발하고 LF AI & Data 재단이 관리하는 오픈소스 메타데이터 플랫폼으로, 대규모 데이터 환경에서 실시간 메타데이터 수집, 검색, 계보(Lineage), 품질 추적을 가능하게 하는 현대적 데이터 거버넌스 솔루션이다. 마이크로서비스 아키텍처와 Kafka 기반의 실시간 이벤트 스트리밍을 통해 지속적으로 변화하는 데이터 환경에 민첩하게 대응할 수 있다.1. 개념 및 정의 항목 설명 정의실시간 메타데이터 수집, 탐색, 계보 분석, 품질 관리, 정책 기반 거버넌스를 지원하는 오픈소스 플랫폼개발 주체LinkedIn → LF AI & Data 오픈소스 커뮤니티 주도아키텍처Kafka + GraphQL + Neo4j(또는 Elasticsearch) 기반 메타데이터 처리 플랫폼..

Topic 2025.06.21

Database-as-Code(DaC)

개요Database-as-Code(DaC)는 데이터베이스 스키마, 설정, 마이그레이션 작업 등을 코드화하여 버전 관리, 자동화, 협업을 가능하게 만드는 현대적인 데이터베이스 운영 패러다임이다. 이는 Infrastructure-as-Code(IaC)의 철학을 데이터베이스 영역에 적용한 것으로, DevOps 및 GitOps 문화를 데이터 스택에 자연스럽게 연결해준다.1. 개념 및 정의 항목 내용 정의데이터베이스 구성요소를 코드로 선언하고 Git 등의 형상관리 시스템으로 버전 관리하는 접근 방식목적스키마 변경의 예측 가능성, 협업성, 이력 관리 강화적용 범위데이터베이스 스키마, 테이블 정의, 뷰, 인덱스, 마이그레이션 스크립트 등코드 기반으로 데이터베이스 상태를 선언함으로써, 사람의 실수나 수동 변경을 방지..

Topic 2025.06.20

OpenLineage

개요OpenLineage는 데이터 파이프라인의 흐름을 추적하고 분석할 수 있도록 돕는 오픈소스 메타데이터 표준 프레임워크입니다. 데이터의 생산부터 소비까지의 경로(Lineage)를 표준화된 방식으로 수집·분석함으로써 데이터 품질, 거버넌스, 디버깅에 핵심 역할을 합니다. 본 글에서는 OpenLineage의 구조, 주요 기능, 기술 요소 및 활용 방안을 심층적으로 소개합니다.1. 개념 및 정의 항목 설명 정의데이터 워크플로우 내에서 발생하는 메타데이터를 수집하여, 데이터 이동 경로를 표준화된 방식으로 기록하는 오픈소스 프로젝트주요 목적데이터 파이프라인 추적, 품질 관리, 오류 진단 자동화배경Marquez 프로젝트 기반, LF AI & Data 재단 주도OpenLineage는 Airflow, Spark, ..

Topic 2025.06.11

dbt Semantic Layer

개요dbt Semantic Layer는 데이터 분석 도구와 BI 툴에서 일관된 정의와 지표를 사용할 수 있도록 도와주는 추상화 계층입니다. 데이터 모델링과 분석 간의 간극을 해소하고, 모든 사용자가 동일한 의미의 데이터를 기반으로 작업할 수 있도록 지원함으로써 ‘정의된 단일 진실(SSOT, Single Source of Truth)’을 구현합니다. 이는 데이터 품질 및 조직 전반의 의사결정 신뢰도를 극적으로 향상시킵니다.1. 개념 및 정의 항목 내용 정의dbt Semantic Layer는 dbt에서 정의한 모델, 지표, 엔티티 등을 추상화하여 다양한 분석 도구에서 통합적으로 사용할 수 있게 하는 계층입니다.목적데이터 정의와 의미의 일관성을 보장하고, 분석 환경 간 연결성을 제공합니다.필요성각 도구마다 ..

Topic 2025.06.05

dbt (Data Build Tool)

개요dbt(Data Build Tool)는 분석 엔지니어가 SQL을 이용해 데이터 웨어하우스 상에서 데이터 모델을 정의하고 변환하며 문서화 및 테스트까지 수행할 수 있도록 돕는 오픈소스 프레임워크입니다. dbt는 ELT 구조 중 ‘T(Transform)’ 단계에 최적화된 도구로, 데이터 분석의 생산성과 일관성을 높여주는 핵심 컴포넌트로 각광받고 있습니다.1. 개념 및 정의dbt는 SQL 기반의 선언적 방식으로 모델링, 문서화, 테스트, 배포 자동화를 지원하는 데이터 트랜스포메이션 도구입니다. 전통적인 ETL 방식과 달리, 원시 데이터는 데이터 웨어하우스로 적재되고(db/EL), dbt는 그 위에서 변환 작업을 수행합니다.사용자는 SQL과 Jinja 템플릿을 활용하여 데이터 모델을 생성하고, 이를 DAG(..

Topic 2025.04.28
728x90
반응형