
개요HyperLogLog는 대규모 데이터 집합에서 고유한 원소의 수(카디널리티)를 매우 적은 메모리로 정확하게 추정할 수 있는 확률 기반 알고리즘이다. 빅데이터 환경에서 중복 없이 데이터 개수를 세는 데 효과적이며, Google, Redis, Apache Druid 등 다양한 플랫폼에서 실전 활용되고 있다.1. 개념 및 정의HyperLogLog는 LogLog 알고리즘을 개선한 확률적 데이터 구조로, 해시 함수를 기반으로 입력 원소를 비트 스트림으로 변환하고, 그 중 가장 앞에 나오는 0의 개수를 통해 카디널리티를 추정한다.목적: 메모리 사용 최소화로 정확한 고유 원소 수 추정필요성: 수십억 개 원소의 중복 제거 없이 집계가 필요한 경우2. 특징 특징 설명 비교 대상 고정 메모리 사용수십 KB로 수십억..