728x90
반응형

2025/12/31 7

Vespa

개요Vespa는 대용량 데이터에 대한 실시간 검색, 추천, 랭킹, 필터링을 처리할 수 있는 오픈소스 빅데이터 엔진이다. Yahoo에서 개발되어 Verizon Media, Oath를 거쳐 현재는 다양한 기업과 연구기관에서 사용되고 있으며, 밀리초 단위 응답이 요구되는 대규모 AI 시스템에서 핵심 역할을 한다.1. 개념 및 정의 항목 설명 정의실시간 벡터 검색과 필터링, 랭킹을 지원하는 분산형 AI 검색 엔진목적대규모 사용자 요청에 대한 빠른 개인화, 추천, 탐색 기능 제공필요성기존 검색/추천 시스템의 지연 시간, 복잡성, 확장성 문제 해결Vespa는 통합 검색·추론 엔진으로 모델 서빙, 피쳐 처리, 벡터 연산까지 내장한다.2. 특징특징설명비교실시간 벡터 검색ANN 기반 벡터 검색과 필터 통합 제공Fais..

Topic 2025.12.31

SPLADE

개요SPLADE는 Sparse Lexical and Expansion Model for Information Retrieval의 약자로, 검색 시스템에서 효율성과 정확성을 동시에 확보하기 위한 신경망 기반 희소 표현 모델이다. 전통적인 단어 매칭 기반의 BM25와 딥러닝 기반 dense retriever 사이에서 희소성과 의미 확장 기능을 결합하여, 높은 성능과 낮은 인프라 비용을 동시에 달성한다.1. 개념 및 정의 항목 설명 정의희소 벡터 기반의 질의 및 문서 임베딩 모델로, 재현성과 해석력을 가진 딥 검색 방식목적Dense Retriever 수준의 성능을 Sparse 기반으로 구현필요성검색 정확도 향상과 비용 절감을 동시에 충족하기 위함SPLADE는 Inverted Index를 활용할 수 있어 기존..

Topic 2025.12.31

Apache Calcite

개요Apache Calcite는 다양한 데이터 소스에 대한 쿼리 최적화, SQL 파싱, 관계형 연산 변환 등을 지원하는 오픈소스 미들웨어 프레임워크이다. 스토리지를 포함하지 않으며, DBMS, 데이터 처리 엔진, BI 툴 등에서 SQL 처리를 위한 핵심 컴포넌트로 활용된다. 주로 Apache Flink, Hive, Drill 등 다양한 빅데이터 시스템의 SQL 레이어를 구성하는 데 사용된다.1. 개념 및 정의 항목 설명 정의SQL 구문 분석, 논리/물리 계획 변환, 최적화를 수행하는 미들웨어 라이브러리목적다양한 데이터 소스에 대해 일관된 SQL 인터페이스 제공필요성데이터 이질성, 복잡한 쿼리 플랜 최적화 문제 해결Calcite는 “저장소 없는 데이터베이스”로 불리며 SQL 처리 로직만 제공하는 경량화된..

Topic 2025.12.31

Zarr

개요Zarr는 대규모 과학 데이터를 위한 경량, 유연, 클라우드 친화적 저장 포맷이다. 특히 다차원 배열(N-dimensional array) 데이터를 chunk 단위로 저장하고, 클라우드 기반 분석, 병렬 처리에 적합하도록 설계되었다. NetCDF, HDF5 같은 기존 바이너리 포맷의 대안으로 급부상하고 있다.1. 개념 및 정의 항목 설명 정의Zarr는 다차원 배열을 압축된 청크로 나누어 디렉토리 기반으로 저장하는 포맷목적클라우드 환경 및 병렬 분석에 최적화된 데이터 저장 구조 제공필요성대용량 배열 데이터의 유연한 접근성과 확장성 확보를 위함객체 저장소(S3 등)에서 네이티브로 작동 가능하다는 점에서 특히 주목받는다.2. 특징특징설명비교Chunk 기반배열을 작은 단위로 나눠 저장전체 로드 없이 부분 ..

Topic 2025.12.31

Homa Transport

개요Homa Transport는 대규모 데이터센터 환경에서 **낮은 지연(latency)**과 높은 처리량을 동시에 달성하기 위해 설계된 신뢰성 있는 메시지 전송 프로토콜입니다. 기존의 TCP, RDMA 기반 전송 방식의 병목을 해결하기 위한 대안으로, 메시지 중심(message-oriented) 전송 구조와 공정한 대기시간 제어를 통해 마이크로서비스 및 클라우드 환경에서 효율적인 통신을 보장합니다.1. 개념 및 정의 항목 내용 비고 정의데이터센터 네트워크에서 저지연 및 공정성을 보장하는 메시지 전송 프로토콜John Ousterhout 외 연구진 개발목적짧은 지연 시간과 높은 처리량을 동시에 달성TCP 병목 현상 개선필요성마이크로서비스, RPC 등에서 TCP의 지연 불균형 문제 해결메시지 단위 우선순..

Topic 2025.12.31

TileDB

개요TileDB는 범용 다차원 배열 저장을 지원하는 고성능 데이터베이스로, 과학, 금융, 머신러닝 등 다양한 분야에서 대규모 데이터를 효율적으로 저장하고 분석할 수 있게 해주는 오픈소스 플랫폼이다. 고정된 행/열 구조를 넘어서 시계열, 이미지, 유전체, 기후 등 복잡한 데이터를 다차원 배열로 표현하고, 빠르게 접근할 수 있다는 점에서 차별성을 가진다.1. 개념 및 정의 항목 설명 정의TileDB는 다차원 배열(array)을 기본 단위로 데이터를 저장하는 DBMS목적대용량 과학 및 산업 데이터의 저장, 처리, 분석 성능 극대화필요성기존 RDBMS나 파일 시스템의 한계를 극복하기 위해 등장다차원 데이터를 1급 데이터 구조로 활용할 수 있는 유일한 범용 솔루션 중 하나이다.2. 특징특징설명비교범용성다양한 데..

Topic 2025.12.31

SIOPv2 (Self-Issued OpenID Provider)

개요SIOPv2(Self-Issued OpenID Provider v2)는 OpenID Connect(OIDC)의 확장 규격으로, 중앙화된 ID 제공자(IdP) 없이 사용자 스스로(OpenID Provider 역할 수행) 자신의 DID(Decentralized Identifier)를 활용해 인증을 수행하는 자기주권 신원(Self-Sovereign Identity, SSI) 기반 인증 프로토콜입니다.SIOPv2는 W3C DID/VC 생태계와 높은 호환성을 가지며, 지갑(Wallet)이 직접 IdP 역할을 수행하는 차세대 분산 신원 시스템의 핵심 기술로 자리잡고 있습니다. 항목 내용 비고 정의사용자가 중앙 IdP 대신 스스로(OpenID Provider) 자신의 DID를 통해 인증하는 프로토콜OpenID..

Topic 2025.12.31
728x90
반응형