728x90
반응형

parquet 3

MotherDuck + DuckDB Cloud(Serverless Analytics)

개요MotherDuck는 DuckDB를 클라우드 환경으로 확장하여 협업, 확장성, 중앙 데이터 관리 기능을 제공하는 서버리스 분석 플랫폼이다. DuckDB는 단일 파일 기반 임베디드 OLAP 데이터베이스로, 로컬 환경에서 고성능 분석을 수행하는 데 강점을 가진다. MotherDuck는 이 DuckDB를 클라우드와 연결하여 데이터 공유, 협업, 확장 실행, 중앙 스토리지 통합을 가능하게 한다.즉, "로컬 분석의 속도"와 "클라우드의 확장성"을 결합한 하이브리드 분석 아키텍처가 핵심이다.1. 개념 및 정의MotherDuck + DuckDB Cloud는 DuckDB 엔진을 기반으로 하면서도, 데이터와 메타데이터를 클라우드에 저장하고 분산 실행 및 협업 기능을 제공하는 분석 플랫폼이다. 사용자는 로컬 DuckD..

Topic 2026.02.25

GeoParquet

개요GeoParquet은 Apache Parquet 형식을 기반으로 한 공간 데이터(Geospatial Data) 저장 표준 포맷으로, 대규모 지리정보 데이터를 효율적으로 저장, 공유, 분석할 수 있도록 설계된 오픈 포맷입니다. GIS(Geographic Information System) 및 빅데이터 분석 환경에서 공간 좌표 데이터를 빠르게 읽고 쓸 수 있도록 최적화되어 있으며, 데이터 상호운용성을 강화하여 클라우드 및 분석 플랫폼 간의 데이터 교환을 단순화합니다.1. 개념 및 정의 항목 내용 비고 정의Parquet 형식에 공간 데이터 스키마를 확장한 오픈 표준 포맷GeoArrow 및 GeoJSON 통합 기반목적공간 데이터의 고성능 저장 및 분석 지원빅데이터 분석 및 GIS 통합필요성기존 GIS 포..

Topic 2025.12.18

Arrow Dataset

개요현대 데이터 분석과 머신러닝 파이프라인은 빠르고 효율적인 데이터 표현, 메모리 공유, 직렬화 없는 연산 처리를 필요로 합니다. 이러한 요구를 충족시키기 위해 등장한 포맷이 Apache Arrow이며, 이를 활용한 핵심 단위가 바로 Arrow Dataset입니다. Arrow Dataset은 대규모 열 지향(columnar) 데이터 처리를 위해 최적화된 구조로, Pandas, Spark, DuckDB, PyTorch 등 다양한 시스템과의 호환성과 성능을 동시에 보장합니다.1. 개념 및 정의Arrow Dataset은 Apache Arrow 포맷을 기반으로 구성된 대규모 데이터 집합으로, 열 지향 메모리 구조와 zero-copy 특성을 활용해 고속 분석 및 머신러닝 워크로드에 적합한 형태로 데이터를 저장·관..

Topic 2025.07.16
728x90
반응형