728x90
반응형

apache arrow 4

Arrow Dataset

개요현대 데이터 분석과 머신러닝 파이프라인은 빠르고 효율적인 데이터 표현, 메모리 공유, 직렬화 없는 연산 처리를 필요로 합니다. 이러한 요구를 충족시키기 위해 등장한 포맷이 Apache Arrow이며, 이를 활용한 핵심 단위가 바로 Arrow Dataset입니다. Arrow Dataset은 대규모 열 지향(columnar) 데이터 처리를 위해 최적화된 구조로, Pandas, Spark, DuckDB, PyTorch 등 다양한 시스템과의 호환성과 성능을 동시에 보장합니다.1. 개념 및 정의Arrow Dataset은 Apache Arrow 포맷을 기반으로 구성된 대규모 데이터 집합으로, 열 지향 메모리 구조와 zero-copy 특성을 활용해 고속 분석 및 머신러닝 워크로드에 적합한 형태로 데이터를 저장·관..

Topic 2025.07.16

Substrait (Portable SQL IR)

개요현대 데이터 분석 환경은 다양한 SQL 기반 시스템들(예: Spark, Trino, DuckDB, ClickHouse 등)이 공존하면서, 쿼리 논리 구조와 실행 계획의 이식성(portability) 문제가 부각되고 있습니다. 이러한 문제를 해결하기 위해 등장한 것이 Substrait입니다. Substrait는 SQL 쿼리의 의미적 표현을 추상화한 중간 표현(IR: Intermediate Representation) 포맷으로, 서로 다른 엔진 간 쿼리 공유, 최적화, 실행을 가능하게 하는 범용 쿼리 정의 표준입니다.1. 개념 및 정의Substrait는 SQL을 비롯한 선언적 쿼리 언어를 공통된 중간 형식으로 변환하여, 서로 다른 분석 시스템 간 논리적 쿼리 표현, 최적화 계획, 실행 연산자 정의를 통일..

Topic 2025.05.25

Delta Sharing

개요Delta Sharing은 다양한 플랫폼 간에 안전하고 효율적으로 데이터를 공유할 수 있도록 설계된 오픈 소스 데이터 공유 프로토콜입니다. Databricks에서 주도하여 개발되었으며, Delta Lake 포맷을 기반으로 하되 Apache Arrow, Parquet 등의 오픈 포맷과 호환되는 구조로, 조직 간 실시간 데이터 협업과 분석을 가능하게 합니다. 데이터 레이크에서 직접 데이터를 공유함으로써 복잡한 ETL, 복사 작업 없이 효율적인 데이터 활용이 가능합니다.1. 개념 및 정의 항목 설명 정의Delta Sharing은 오픈 포맷 데이터를 다양한 클라이언트와 안전하게 공유하기 위한 REST 기반 프로토콜입니다.목적플랫폼, 언어, 클라우드 환경과 무관한 안전하고 통합된 데이터 공유 실현필요성사일로..

Topic 2025.05.15

CAEP (Continuous Access Evaluation Protocol)

개요CAEP(Continuous Access Evaluation Protocol)은 클라우드 기반 보안 환경에서 사용자나 디바이스의 상태 변화에 따라 실시간으로 액세스 권한을 재평가할 수 있도록 설계된 개방형 보안 프로토콜입니다. OAuth 2.0과 OpenID Connect를 기반으로 하며, 토큰 유효 기간에 의존하지 않고 동적으로 정책 변경이나 리스크 이벤트를 반영하여 세션을 관리할 수 있게 해 줍니다. Microsoft, Google, Cisco, Okta 등이 참여한 OpenID Foundation WG에서 표준화가 진행되고 있습니다.1. 개념 및 정의 항목 설명 정의CAEP는 사용자 상태 변화나 정책 변경에 따라 인증 세션을 실시간으로 무효화하거나 재검토하는 프로토콜입니다.목적동적 정책 반영과..

Topic 2025.05.14
728x90
반응형