728x90
반응형

자카드유사도 2

LSH(Locality-Sensitive Hashing)

개요Locality-Sensitive Hashing(LSH)은 고차원 벡터 공간에서 유사한 데이터 포인트를 빠르게 검색하기 위한 해시 기반 알고리즘입니다. 일반적인 해시 함수가 충돌을 피하려는 것과 달리, LSH는 유사한 입력값일수록 동일한 해시값으로 매핑될 확률이 높도록 설계되어, 대용량 데이터에서 근사 최근접 이웃(ANN, Approximate Nearest Neighbors) 검색에 활용됩니다.1. 개념 및 정의 항목 내용 정의유사한 객체들이 동일한 해시값을 가질 확률이 높은 해시 함수 집합을 사용하는 알고리즘목적고차원 공간에서의 유사 항목 검색 속도 개선필요성대용량 벡터 데이터에서의 실시간 검색 및 분류 최적화2. 주요 특징특징설명효과근사 최근접 검색정확한 거리 계산 없이 근접 데이터 추정속도 ..

Topic 2026.02.06

MinHash(Minimum Hashing)

개요MinHash(Minimum Hashing)는 집합 간 자카드 유사도(Jaccard Similarity)를 빠르게 근사 계산하기 위한 해시 기반 알고리즘입니다. 웹 페이지 중복 제거, 문서 클러스터링, 추천 시스템 등에서 대용량 데이터 간 유사도를 효율적으로 비교할 수 있도록 설계된 경량 알고리즘입니다.1. 개념 및 정의 항목 내용 정의집합 간 유사도를 추정하기 위해 최소 해시값들을 비교하는 확률적 기법목적대용량 집합 비교 시 연산 비용을 줄이고 효율적으로 유사도 추정필요성텍스트, 로그, 사용자 행동 데이터 등 고차원 데이터의 비교 최적화 필요2. 주요 특징특징설명효과자카드 유사도 근사교집합/합집합 비율을 해시값으로 근사연산량 감소서브라인어 알고리즘저장공간 및 계산 시간 최소화빅데이터 환경 최적화로..

Topic 2026.02.06
728x90
반응형