728x90
반응형

git4data 2

DVC (Data Version Control)

개요DVC(Data Version Control)는 Git과 통합되어 작동하는 오픈소스 데이터 버전 관리 툴로, 머신러닝 및 데이터 사이언스 프로젝트의 데이터, 모델, 파이프라인을 체계적으로 버전 관리할 수 있게 합니다. 코드뿐 아니라 대규모 데이터와 실험 결과까지 추적할 수 있어, ML reproducibility와 협업을 크게 향상시킵니다.1. 개념 및 정의 항목 설명 정의Git과 유사한 방식으로 대용량 데이터 및 모델 파일을 버전 관리할 수 있는 CLI 기반 도구목적데이터 및 ML 파이프라인 재현성 확보 및 협업 지원연동 시스템Git, S3, GCS, Azure, SSH, HTTP 등 다양한 리모트 저장소DVC는 데이터가 Git에 직접 저장되지 않고, Git은 메타데이터만 추적하는 구조입니다.2...

Topic 2025.05.27

lakeFS

개요lakeFS는 데이터레이크를 위한 오픈소스 버전 관리 시스템으로, Git과 유사한 브랜치 및 커밋 기능을 지원하여 대규모 데이터 작업의 신뢰성과 재현성을 보장합니다. 데이터 엔지니어와 사이언티스트는 코드처럼 데이터를 안전하게 관리하고, 실험과 배포 과정을 체계적으로 운영할 수 있습니다.1. 개념 및 정의 항목 설명 정의객체 저장소(S3, GCS 등) 위에서 데이터 버전 관리를 제공하는 시스템목적데이터 변경을 추적 가능하게 하고, 안전한 실험 및 롤백 환경 제공주요 특징커밋, 브랜치, 머지, 리버트 등 Git과 유사한 기능 지원lakeFS는 데이터 신뢰성과 거버넌스를 동시에 확보할 수 있는 플랫폼으로 주목받고 있습니다.2. 특징특징설명기대 효과브랜치 기반 워크플로우데이터 환경을 코드처럼 관리실험/운영..

Topic 2025.05.27
728x90
반응형