728x90
반응형

zero-copy 3

Arrow Dataset

개요현대 데이터 분석과 머신러닝 파이프라인은 빠르고 효율적인 데이터 표현, 메모리 공유, 직렬화 없는 연산 처리를 필요로 합니다. 이러한 요구를 충족시키기 위해 등장한 포맷이 Apache Arrow이며, 이를 활용한 핵심 단위가 바로 Arrow Dataset입니다. Arrow Dataset은 대규모 열 지향(columnar) 데이터 처리를 위해 최적화된 구조로, Pandas, Spark, DuckDB, PyTorch 등 다양한 시스템과의 호환성과 성능을 동시에 보장합니다.1. 개념 및 정의Arrow Dataset은 Apache Arrow 포맷을 기반으로 구성된 대규모 데이터 집합으로, 열 지향 메모리 구조와 zero-copy 특성을 활용해 고속 분석 및 머신러닝 워크로드에 적합한 형태로 데이터를 저장·관..

Topic 2025.07.16

Zero-Copy Data Lake

개요데이터가 폭발적으로 증가하고 조직 간 협업 및 분석 수요가 커지면서, 데이터 레이크(Data Lake)의 구조 또한 진화하고 있습니다. 특히 데이터를 복제하지 않고 여러 워크로드에서 공유할 수 있는 Zero-Copy Data Lake 아키텍처가 주목받고 있습니다. 이 구조는 데이터 이동 없이 다양한 분석 및 머신러닝 워크로드에 동일한 데이터를 활용할 수 있도록 하여, 비용 절감과 거버넌스 강화를 동시에 실현합니다.1. 개념 및 정의Zero-Copy Data Lake란 데이터를 별도로 복사(copy)하지 않고, 단일 저장소에서 다양한 분석 시스템이나 팀이 해당 데이터를 공유·활용할 수 있는 데이터 레이크 아키텍처입니다.전통적인 방식에서는 데이터를 이동하거나 복제하여 팀별로 보유하였지만, Zero-Cop..

Topic 2025.07.16

io_uring

개요io_uring은 Linux 커널 5.1부터 도입된 고성능 비동기 I/O 프레임워크로, 기존의 epoll, aio 등의 한계를 극복하고 파일 시스템, 네트워크 등 다양한 I/O 작업을 효율적으로 처리할 수 있게 해주는 현대적인 인터페이스입니다. Ring Buffer 구조와 시스템 콜 최소화를 통해 극도로 낮은 지연 시간과 높은 처리량을 보장하며, 고속 네트워크, 대규모 서버, 고성능 데이터베이스 시스템에서 각광받고 있습니다.1. 개념 및 정의 항목 설명 정의io_uring은 링 버퍼 기반의 사용자 공간/커널 공간 간 비동기 I/O 통신 인터페이스입니다.목적시스템 콜 오버헤드 감소, 고성능 I/O 처리, 병렬성 향상필요성기존 epoll, select 기반 I/O는 syscall 빈도와 context ..

Topic 2025.05.14
728x90
반응형