728x90
반응형

데이터버전관리 3

Delta Lake

개요Delta Lake는 기존 데이터 레이크에 ACID 트랜잭션, 버전 관리, 스키마 강제 등의 기능을 추가하여, 안정적이고 신뢰할 수 있는 데이터 처리 환경을 제공하는 오픈소스 스토리지 레이어이다. Databricks에서 주도하며, Apache Spark 및 Lakehouse 아키텍처의 핵심 구성요소로 채택되고 있다.1. 개념 및 정의 항목 내용 정의Apache Spark 기반 데이터 레이크에 트랜잭션, 스키마 관리, 데이터 버전 기능을 추가한 스토리지 포맷 및 레이어형식Parquet + 트랜잭션 로그(_delta_log) 기반 스토리지주체Databricks 주도, Linux Foundation Project 참여Delta Lake는 "데이터 레이크의 유연성"과 "데이터 웨어하우스의 신뢰성"을 결합한..

Topic 2025.06.21

DVC (Data Version Control)

개요DVC(Data Version Control)는 Git과 통합되어 작동하는 오픈소스 데이터 버전 관리 툴로, 머신러닝 및 데이터 사이언스 프로젝트의 데이터, 모델, 파이프라인을 체계적으로 버전 관리할 수 있게 합니다. 코드뿐 아니라 대규모 데이터와 실험 결과까지 추적할 수 있어, ML reproducibility와 협업을 크게 향상시킵니다.1. 개념 및 정의 항목 설명 정의Git과 유사한 방식으로 대용량 데이터 및 모델 파일을 버전 관리할 수 있는 CLI 기반 도구목적데이터 및 ML 파이프라인 재현성 확보 및 협업 지원연동 시스템Git, S3, GCS, Azure, SSH, HTTP 등 다양한 리모트 저장소DVC는 데이터가 Git에 직접 저장되지 않고, Git은 메타데이터만 추적하는 구조입니다.2...

Topic 2025.05.27

lakeFS

개요lakeFS는 데이터레이크를 위한 오픈소스 버전 관리 시스템으로, Git과 유사한 브랜치 및 커밋 기능을 지원하여 대규모 데이터 작업의 신뢰성과 재현성을 보장합니다. 데이터 엔지니어와 사이언티스트는 코드처럼 데이터를 안전하게 관리하고, 실험과 배포 과정을 체계적으로 운영할 수 있습니다.1. 개념 및 정의 항목 설명 정의객체 저장소(S3, GCS 등) 위에서 데이터 버전 관리를 제공하는 시스템목적데이터 변경을 추적 가능하게 하고, 안전한 실험 및 롤백 환경 제공주요 특징커밋, 브랜치, 머지, 리버트 등 Git과 유사한 기능 지원lakeFS는 데이터 신뢰성과 거버넌스를 동시에 확보할 수 있는 플랫폼으로 주목받고 있습니다.2. 특징특징설명기대 효과브랜치 기반 워크플로우데이터 환경을 코드처럼 관리실험/운영..

Topic 2025.05.27
728x90
반응형