728x90
반응형

데이터카탈로그 9

Column-Level Lineage with OpenLineage v1.2

개요OpenLineage는 데이터 파이프라인의 실행과 흐름을 표준화된 방식으로 기록하는 메타데이터 계보(lineage) 표준입니다. v1.2 버전에서는 특히 컬럼 단위 계보(Column-Level Lineage) 추적 기능이 공식 지원되면서, 데이터 품질 추적, 규정 준수, 영향도 분석에서의 실용성이 크게 향상되었습니다.1. 개념 및 정의Column-Level Lineage는 테이블 간의 흐름뿐만 아니라, 개별 컬럼 간 데이터 변환 및 이동을 정밀하게 추적하는 메타데이터 구조를 의미합니다.OpenLineage v1.2: 컬럼 종속성 명시 기능 포함Input/Output Facets: 컬럼 입출력 간 매핑 정보 제공명시적 ColumnMapping: 변환 로직 기반 의존성 정의 가능2. 특징 특징 설명 ..

Topic 04:04:17

Amundsen

개요Amundsen은 Lyft에서 개발한 오픈소스 메타데이터 검색 및 카탈로그 플랫폼으로, 사용자들이 조직 내에서 신뢰할 수 있는 데이터를 쉽게 탐색, 검색, 이해할 수 있도록 지원한다. 자동화된 메타데이터 수집, 직관적인 검색 인터페이스, 계보(Lineage) 시각화 등을 통해 데이터 거버넌스 및 셀프서비스 분석 문화 확산에 기여한다.1. 개념 및 정의 항목 내용 정의메타데이터 수집, 검색, 라벨링, 계보 시각화를 제공하는 오픈소스 데이터 카탈로그 플랫폼개발 주체Lyft → Linux Foundation AI & Data 프로젝트 편입아키텍처Metadata + Search + Frontend로 구성된 모듈형 구조Amundsen은 Google-like 검색 경험을 메타데이터에 적용한 것이 특징이다.2...

Topic 2025.06.21

DataHub

개요DataHub는 LinkedIn이 개발하고 LF AI & Data 재단이 관리하는 오픈소스 메타데이터 플랫폼으로, 대규모 데이터 환경에서 실시간 메타데이터 수집, 검색, 계보(Lineage), 품질 추적을 가능하게 하는 현대적 데이터 거버넌스 솔루션이다. 마이크로서비스 아키텍처와 Kafka 기반의 실시간 이벤트 스트리밍을 통해 지속적으로 변화하는 데이터 환경에 민첩하게 대응할 수 있다.1. 개념 및 정의 항목 설명 정의실시간 메타데이터 수집, 탐색, 계보 분석, 품질 관리, 정책 기반 거버넌스를 지원하는 오픈소스 플랫폼개발 주체LinkedIn → LF AI & Data 오픈소스 커뮤니티 주도아키텍처Kafka + GraphQL + Neo4j(또는 Elasticsearch) 기반 메타데이터 처리 플랫폼..

Topic 2025.06.21

OpenMetadata

개요OpenMetadata는 데이터 카탈로그, 데이터 계보(Lineage), 품질 관리, 권한 통제 등을 포함하는 통합형 오픈소스 메타데이터 관리 플랫폼이다. 다양한 데이터 소스와 분석 도구를 자동 연동하며, API 중심 아키텍처를 통해 유연한 거버넌스, 데이터 탐색, 데이터 옵저버빌리티를 지원한다.1. 개념 및 정의 항목 내용 정의데이터 자산에 대한 메타데이터 수집, 탐색, 계보 추적, 품질 검사, 보안 정책을 통합 제공하는 오픈소스 메타데이터 플랫폼주관CNCF Landscape 등재, 오픈소스 GitHub 프로젝트 (https://github.com/open-metadata/OpenMetadata)주요 대상데이터 엔지니어, 데이터 거버넌스팀, 데이터 분석가, 보안 관리자 등OpenMetadata는 ..

Topic 2025.06.21

Unity Catalog

개요Unity Catalog는 Databricks에서 제공하는 통합 데이터 거버넌스 솔루션으로, 조직의 모든 데이터 자산에 대한 중앙 집중적 카탈로그, 권한 관리, 감사 추적, 계보(라인리지) 정보를 제공하는 메타데이터 관리 플랫폼이다. Lakehouse 아키텍처에 최적화되어 있으며, 데이터 엔지니어, 분석가, 보안 관리자 모두를 위한 단일 관리 체계를 실현한다.1. 개념 및 정의 항목 설명 정의Databricks 내의 테이블, 뷰, 파일, ML 모델 등에 대한 메타데이터, 권한, 라인리지 등을 중앙 관리하는 플랫폼역할데이터 거버넌스, 카탈로그 관리, 접근 제어, 감사 로깅 제공대상 환경Databricks Lakehouse, Delta Lake 기반 워크스페이스 전반Unity Catalog는 Azure..

Topic 2025.06.21

Data Product Lifecycle Canvas

개요Data Product Lifecycle Canvas는 데이터 중심 조직이 데이터를 단순 자산이 아닌 ‘제품(Product)’으로 바라보고, 그 생애주기를 전략적으로 관리하기 위해 활용하는 프레임워크이다. 도메인 중심 데이터 설계, 제품 관리 원칙, 소비자 중심 가치 전달을 통합한 이 캔버스는 Data Mesh와 함께 현대적 데이터 아키텍처의 핵심 도구로 부상하고 있다.1. 개념 및 정의 항목 내용 정의데이터 제품의 기획, 설계, 구현, 운영, 폐기까지 전 생애주기를 시각적으로 정의하는 설계 도구목적데이터 소비자 중심의 설계 및 가치 실현 극대화필요성데이터 품질, 거버넌스, 소유권의 명확화 및 책임 관리 강화데이터를 제품처럼 설계하고 운영함으로써, 재사용성과 신뢰성을 높이는 것이 핵심이다.2. 특징..

Topic 2025.06.20

데이터 공유 기술(Data Sharing Technologies)

개요데이터는 이제 ‘소유’보다 ‘공유’를 통해 더 큰 가치를 창출하는 자산이 되었습니다. 다양한 조직 간, 부서 간, 시스템 간의 데이터 연계와 협업이 중요해지며, 이를 가능하게 하는 데이터 공유 기술의 발전이 주목받고 있습니다. 본 글에서는 데이터 공유의 개념, 주요 기술 방식, 활용 모델, 플랫폼 예시 및 보안 고려사항까지 포괄적으로 정리합니다.1. 데이터 공유란? 항목 설명 정의데이터 제공자와 활용자 간 데이터 파일, API, 플랫폼 등을 통해 정보를 교환하거나 연계하는 기술적·정책적 행위목적데이터 활용 극대화, 중복 제거, 협업 기반 인사이트 확보공유 유형내부 공유(부서 간), 외부 공유(기관/기업 간), 개방형 공유(공공/민간 데이터셋)데이터 공유는 ‘데이터의 유통망’이며, 거버넌스와 기술이 ..

Topic 2025.04.21

Data Catalog(데이터 카탈로그)

개요Data Catalog(데이터 카탈로그)는 조직 내 존재하는 모든 데이터 자산의 위치, 정의, 품질, 연관 관계 등을 체계적으로 정리하고 검색할 수 있도록 도와주는 메타데이터 관리 시스템입니다. 데이터가 폭발적으로 증가하고 있는 현대의 데이터 중심 환경에서는, 데이터의 존재와 맥락을 명확히 파악하는 것이 생산성과 경쟁력의 핵심이 되고 있으며, 이를 가능하게 하는 것이 바로 데이터 카탈로그입니다.1. 개념 및 정의데이터 카탈로그는 마치 도서관의 책 목록처럼, 조직 내 모든 데이터를 구조화된 형태로 인덱싱하고 메타데이터와 함께 관리하는 플랫폼입니다. 데이터 사용자(분석가, 개발자, 데이터 과학자 등)는 카탈로그를 통해 필요한 데이터를 빠르게 찾고, 신뢰도와 활용 기준을 이해하여 효율적인 데이터 기반 의사..

Topic 2025.04.05

메타데이터(Metadata)

개요메타데이터는 데이터를 설명하고 분류하는 데 사용되는 “데이터에 대한 데이터”입니다. 즉, 실제 데이터 자체가 아닌 데이터를 이해하고 활용하기 위한 정보로, 정보 검색, 데이터 관리, 보안, 분석 등에 핵심적인 역할을 합니다. 본 글에서는 메타데이터의 개념부터 종류, 구성 요소, 기술적 활용 방안, 보안 이슈, 실제 사례까지 포괄적으로 다루어 봅니다.1. 개념 및 정의메타데이터(Metadata)는 데이터의 구조, 의미, 생성 정보, 접근 권한 등을 정의하는 정보를 말합니다. 예를 들어, 디지털 사진의 해상도, 촬영 일시, 위치 정보 등이 메타데이터에 해당하며, 데이터 카탈로그, 문서 관리 시스템, 검색 엔진 등 다양한 분야에서 활용됩니다. 메타데이터는 데이터의 정렬, 필터링, 통합, 보안 및 거버넌스에..

Topic 2025.04.01
728x90
반응형