728x90
반응형

메타데이터관리 6

DataHub

개요DataHub는 LinkedIn이 개발하고 LF AI & Data 재단이 관리하는 오픈소스 메타데이터 플랫폼으로, 대규모 데이터 환경에서 실시간 메타데이터 수집, 검색, 계보(Lineage), 품질 추적을 가능하게 하는 현대적 데이터 거버넌스 솔루션이다. 마이크로서비스 아키텍처와 Kafka 기반의 실시간 이벤트 스트리밍을 통해 지속적으로 변화하는 데이터 환경에 민첩하게 대응할 수 있다.1. 개념 및 정의 항목 설명 정의실시간 메타데이터 수집, 탐색, 계보 분석, 품질 관리, 정책 기반 거버넌스를 지원하는 오픈소스 플랫폼개발 주체LinkedIn → LF AI & Data 오픈소스 커뮤니티 주도아키텍처Kafka + GraphQL + Neo4j(또는 Elasticsearch) 기반 메타데이터 처리 플랫폼..

Topic 2025.06.21

Unity Catalog

개요Unity Catalog는 Databricks에서 제공하는 통합 데이터 거버넌스 솔루션으로, 조직의 모든 데이터 자산에 대한 중앙 집중적 카탈로그, 권한 관리, 감사 추적, 계보(라인리지) 정보를 제공하는 메타데이터 관리 플랫폼이다. Lakehouse 아키텍처에 최적화되어 있으며, 데이터 엔지니어, 분석가, 보안 관리자 모두를 위한 단일 관리 체계를 실현한다.1. 개념 및 정의 항목 설명 정의Databricks 내의 테이블, 뷰, 파일, ML 모델 등에 대한 메타데이터, 권한, 라인리지 등을 중앙 관리하는 플랫폼역할데이터 거버넌스, 카탈로그 관리, 접근 제어, 감사 로깅 제공대상 환경Databricks Lakehouse, Delta Lake 기반 워크스페이스 전반Unity Catalog는 Azure..

Topic 2025.06.21

Data Product Lifecycle Canvas

개요Data Product Lifecycle Canvas는 데이터 중심 조직이 데이터를 단순 자산이 아닌 ‘제품(Product)’으로 바라보고, 그 생애주기를 전략적으로 관리하기 위해 활용하는 프레임워크이다. 도메인 중심 데이터 설계, 제품 관리 원칙, 소비자 중심 가치 전달을 통합한 이 캔버스는 Data Mesh와 함께 현대적 데이터 아키텍처의 핵심 도구로 부상하고 있다.1. 개념 및 정의 항목 내용 정의데이터 제품의 기획, 설계, 구현, 운영, 폐기까지 전 생애주기를 시각적으로 정의하는 설계 도구목적데이터 소비자 중심의 설계 및 가치 실현 극대화필요성데이터 품질, 거버넌스, 소유권의 명확화 및 책임 관리 강화데이터를 제품처럼 설계하고 운영함으로써, 재사용성과 신뢰성을 높이는 것이 핵심이다.2. 특징..

Topic 2025.06.20

OpenLineage

개요OpenLineage는 데이터 파이프라인의 흐름을 추적하고 분석할 수 있도록 돕는 오픈소스 메타데이터 표준 프레임워크입니다. 데이터의 생산부터 소비까지의 경로(Lineage)를 표준화된 방식으로 수집·분석함으로써 데이터 품질, 거버넌스, 디버깅에 핵심 역할을 합니다. 본 글에서는 OpenLineage의 구조, 주요 기능, 기술 요소 및 활용 방안을 심층적으로 소개합니다.1. 개념 및 정의 항목 설명 정의데이터 워크플로우 내에서 발생하는 메타데이터를 수집하여, 데이터 이동 경로를 표준화된 방식으로 기록하는 오픈소스 프로젝트주요 목적데이터 파이프라인 추적, 품질 관리, 오류 진단 자동화배경Marquez 프로젝트 기반, LF AI & Data 재단 주도OpenLineage는 Airflow, Spark, ..

Topic 2025.06.11

데이터 패브릭(Data Fabric)

개요데이터 패브릭(Data Fabric)은 이기종 데이터 환경 전반에 걸쳐 통합되고 지능적인 데이터 관리를 가능하게 하는 아키텍처이다. 오늘날 기업들은 온프레미스, 클라우드, 엣지 등 다양한 환경에서 데이터를 다루고 있으며, 이로 인해 데이터 사일로, 접근성 문제, 보안 우려 등이 증가하고 있다. 데이터 패브릭은 이러한 복잡성을 해소하고 비즈니스 민첩성과 데이터 활용도를 높이는 데 핵심적인 역할을 한다.1. 개념 및 정의데이터 패브릭은 여러 데이터 소스를 연결해 마치 하나의 통합된 데이터 레이어처럼 작동하는 기술 아키텍처로, 실시간 데이터 접근, 통합, 관리, 거버넌스를 자동화하는 것을 목표로 한다.목적: 데이터 사일로 해소 및 전체 데이터 접근성 향상필요성: 분산 환경에서의 복잡한 데이터 관리와 분석 ..

Topic 2025.04.26

Data Catalog(데이터 카탈로그)

개요Data Catalog(데이터 카탈로그)는 조직 내 존재하는 모든 데이터 자산의 위치, 정의, 품질, 연관 관계 등을 체계적으로 정리하고 검색할 수 있도록 도와주는 메타데이터 관리 시스템입니다. 데이터가 폭발적으로 증가하고 있는 현대의 데이터 중심 환경에서는, 데이터의 존재와 맥락을 명확히 파악하는 것이 생산성과 경쟁력의 핵심이 되고 있으며, 이를 가능하게 하는 것이 바로 데이터 카탈로그입니다.1. 개념 및 정의데이터 카탈로그는 마치 도서관의 책 목록처럼, 조직 내 모든 데이터를 구조화된 형태로 인덱싱하고 메타데이터와 함께 관리하는 플랫폼입니다. 데이터 사용자(분석가, 개발자, 데이터 과학자 등)는 카탈로그를 통해 필요한 데이터를 빠르게 찾고, 신뢰도와 활용 기준을 이해하여 효율적인 데이터 기반 의사..

Topic 2025.04.05
728x90
반응형