728x90
반응형

2026/01/29 3

DiskANN(Disk-Accelerated Approximate Nearest Neighbor Search)

개요DiskANN은 마이크로소프트 리서치에서 개발한 근사 최근접 탐색(ANN, Approximate Nearest Neighbor) 알고리즘으로, RAM이 아닌 디스크(SSD)에 저장된 고차원 벡터 데이터를 고속으로 검색할 수 있도록 설계되었습니다. 수십억 개의 벡터도 소량의 메모리만으로 빠르게 탐색할 수 있어, 대규모 검색 시스템에 적합합니다.1. 개념 및 정의 항목 설명 정의SSD에 저장된 대규모 벡터 인덱스에서 최근접 이웃을 근사적으로 탐색하는 알고리즘목적RAM 사용을 최소화하면서도 빠른 벡터 검색 구현필요성메모리 크기를 넘는 벡터 데이터를 실시간 탐색할 수 있는 구조 필요DiskANN은 HNSW 기반 탐색과 SSD 친화적인 I/O 최적화를 결합함2. 특징특징설명비교SSD 기반 인덱스대부분의 인덱..

Topic 2026.01.29

t-digest

개요t-digest는 실수 값으로 이루어진 데이터에서 분위수(percentile), 백분위, 중위수(median), Value-at-Risk 등을 빠르고 정확하게 추정하기 위한 자료구조입니다. Ted Dunning이 고안한 이 구조는 대규모 데이터 스트림 환경에서도 고정된 메모리로 높은 정밀도를 유지하며, 특히 tail(꼬리) 영역에서의 정확도에 강점을 갖습니다.1. 개념 및 정의 항목 설명 정의분위수 계산을 위한 확률 밀도 추정용 데이터 요약 구조목적중위수, 분위수 계산을 메모리 효율적으로 수행필요성전체 데이터를 저장하지 않고 정확한 분위수 추정 필요t-digest는 평균값이 아닌 분포 형태를 요약해 통계적으로 의미 있는 추정을 가능하게 함2. 특징특징설명비교메모리 효율성수백만 건도 수백 KB 이내 ..

Topic 2026.01.29

Snappy

개요Snappy는 Google에서 개발한 경량 고속 무손실 압축 알고리즘으로, 속도를 최우선으로 설계되었습니다. 압축률보다 압축/해제 속도를 중시하며, 로그 수집, 빅데이터 처리, 데이터베이스 등 고처리량 환경에 적합합니다. 다양한 언어와 플랫폼에서 사용되며, 특히 Hadoop, Kafka, Cassandra 등에서 널리 채택되고 있습니다.1. 개념 및 정의 항목 설명 정의매우 빠른 압축 및 해제를 지원하는 무손실 압축 알고리즘목적실시간/고속 처리 환경에서의 병목 제거필요성zlib 등 고압축 알고리즘의 느린 속도를 대체Snappy는 CPU 사용률이 낮고 압축/해제 속도가 매우 빠르며, 평균 압축률은 중간 수준2. 특징특징설명비교초고속 압축/해제250MB/s~500MB/s 수준zlib 대비 3~5배 빠름..

Topic 2026.01.29
728x90
반응형