728x90
반응형

lsh 3

LSH(Locality-Sensitive Hashing)

개요Locality-Sensitive Hashing(LSH)은 고차원 벡터 공간에서 유사한 데이터 포인트를 빠르게 검색하기 위한 해시 기반 알고리즘입니다. 일반적인 해시 함수가 충돌을 피하려는 것과 달리, LSH는 유사한 입력값일수록 동일한 해시값으로 매핑될 확률이 높도록 설계되어, 대용량 데이터에서 근사 최근접 이웃(ANN, Approximate Nearest Neighbors) 검색에 활용됩니다.1. 개념 및 정의 항목 내용 정의유사한 객체들이 동일한 해시값을 가질 확률이 높은 해시 함수 집합을 사용하는 알고리즘목적고차원 공간에서의 유사 항목 검색 속도 개선필요성대용량 벡터 데이터에서의 실시간 검색 및 분류 최적화2. 주요 특징특징설명효과근사 최근접 검색정확한 거리 계산 없이 근접 데이터 추정속도 ..

Topic 2026.02.06

MinHash(Minimum Hashing)

개요MinHash(Minimum Hashing)는 집합 간 자카드 유사도(Jaccard Similarity)를 빠르게 근사 계산하기 위한 해시 기반 알고리즘입니다. 웹 페이지 중복 제거, 문서 클러스터링, 추천 시스템 등에서 대용량 데이터 간 유사도를 효율적으로 비교할 수 있도록 설계된 경량 알고리즘입니다.1. 개념 및 정의 항목 내용 정의집합 간 유사도를 추정하기 위해 최소 해시값들을 비교하는 확률적 기법목적대용량 집합 비교 시 연산 비용을 줄이고 효율적으로 유사도 추정필요성텍스트, 로그, 사용자 행동 데이터 등 고차원 데이터의 비교 최적화 필요2. 주요 특징특징설명효과자카드 유사도 근사교집합/합집합 비율을 해시값으로 근사연산량 감소서브라인어 알고리즘저장공간 및 계산 시간 최소화빅데이터 환경 최적화로..

Topic 2026.02.06

Multidimensional Index Structure

개요Multidimensional Index Structure(다차원 인덱스 구조)는 다차원 데이터에서 빠른 검색과 효율적인 데이터 처리를 지원하는 인덱싱 기법입니다. 이는 공간 데이터, 시계열 데이터, 이미지 데이터, IoT 데이터 등 다양한 응용 분야에서 사용되며, 고차원 데이터를 효율적으로 저장하고 검색하는 데 중요한 역할을 합니다. 본 글에서는 다차원 인덱스 구조의 개념, 주요 알고리즘, 활용 사례 및 최신 동향을 살펴봅니다.1. 다차원 인덱스 구조란?다차원 인덱스 구조는 2차원 이상의 데이터를 효율적으로 검색할 수 있도록 설계된 데이터 구조입니다. 이는 전통적인 1차원 인덱싱 기법(예: B-Tree, Hash Index)으로 처리하기 어려운 공간 데이터나 복잡한 다차원 쿼리를 최적화하는 데 사용..

Topic 2025.03.12
728x90
반응형