728x90
반응형

2026/01/29 2

t-digest

개요t-digest는 실수 값으로 이루어진 데이터에서 분위수(percentile), 백분위, 중위수(median), Value-at-Risk 등을 빠르고 정확하게 추정하기 위한 자료구조입니다. Ted Dunning이 고안한 이 구조는 대규모 데이터 스트림 환경에서도 고정된 메모리로 높은 정밀도를 유지하며, 특히 tail(꼬리) 영역에서의 정확도에 강점을 갖습니다.1. 개념 및 정의 항목 설명 정의분위수 계산을 위한 확률 밀도 추정용 데이터 요약 구조목적중위수, 분위수 계산을 메모리 효율적으로 수행필요성전체 데이터를 저장하지 않고 정확한 분위수 추정 필요t-digest는 평균값이 아닌 분포 형태를 요약해 통계적으로 의미 있는 추정을 가능하게 함2. 특징특징설명비교메모리 효율성수백만 건도 수백 KB 이내 ..

Topic 14:52:03

Snappy

개요Snappy는 Google에서 개발한 경량 고속 무손실 압축 알고리즘으로, 속도를 최우선으로 설계되었습니다. 압축률보다 압축/해제 속도를 중시하며, 로그 수집, 빅데이터 처리, 데이터베이스 등 고처리량 환경에 적합합니다. 다양한 언어와 플랫폼에서 사용되며, 특히 Hadoop, Kafka, Cassandra 등에서 널리 채택되고 있습니다.1. 개념 및 정의 항목 설명 정의매우 빠른 압축 및 해제를 지원하는 무손실 압축 알고리즘목적실시간/고속 처리 환경에서의 병목 제거필요성zlib 등 고압축 알고리즘의 느린 속도를 대체Snappy는 CPU 사용률이 낮고 압축/해제 속도가 매우 빠르며, 평균 압축률은 중간 수준2. 특징특징설명비교초고속 압축/해제250MB/s~500MB/s 수준zlib 대비 3~5배 빠름..

Topic 07:51:23
728x90
반응형