728x90
반응형

hyperloglog 2

Cardinality Estimation Metric

개요Cardinality Estimation은 데이터베이스 쿼리 옵티마이저가 실행 계획을 수립할 때 사용하는 핵심 통계 기법입니다. 이는 특정 열(column)에 존재하는 고유(distinct) 값의 수를 예측하여, 조인 방식, 인덱스 사용 여부, 버퍼 사이즈 등 다양한 성능 결정 요소에 영향을 미칩니다. Cardinality Estimation Metric은 이러한 예측의 정확성과 오류율을 측정하여 시스템 성능 최적화에 기여합니다.1. 개념 및 정의 항목 설명 비고 정의테이블 컬럼 내 고유한 값의 수를 예측하는 통계 기반 메트릭DISTINCT 값 추정목적실행 계획 최적화를 위한 데이터 분포 정보 제공비용 기반 쿼리 최적화 모델과 연계필요성부정확한 cardinality는 잘못된 실행 계획으로 이어짐성..

Topic 2025.05.29

HyperLogLog

개요HyperLogLog는 대규모 데이터 집합에서 고유한 원소의 수(카디널리티)를 매우 적은 메모리로 정확하게 추정할 수 있는 확률 기반 알고리즘이다. 빅데이터 환경에서 중복 없이 데이터 개수를 세는 데 효과적이며, Google, Redis, Apache Druid 등 다양한 플랫폼에서 실전 활용되고 있다.1. 개념 및 정의HyperLogLog는 LogLog 알고리즘을 개선한 확률적 데이터 구조로, 해시 함수를 기반으로 입력 원소를 비트 스트림으로 변환하고, 그 중 가장 앞에 나오는 0의 개수를 통해 카디널리티를 추정한다.목적: 메모리 사용 최소화로 정확한 고유 원소 수 추정필요성: 수십억 개 원소의 중복 제거 없이 집계가 필요한 경우2. 특징 특징 설명 비교 대상 고정 메모리 사용수십 KB로 수십억..

Topic 2025.05.10
728x90
반응형