개요MinHash(Minimum Hashing)는 집합 간 자카드 유사도(Jaccard Similarity)를 빠르게 근사 계산하기 위한 해시 기반 알고리즘입니다. 웹 페이지 중복 제거, 문서 클러스터링, 추천 시스템 등에서 대용량 데이터 간 유사도를 효율적으로 비교할 수 있도록 설계된 경량 알고리즘입니다.1. 개념 및 정의 항목 내용 정의집합 간 유사도를 추정하기 위해 최소 해시값들을 비교하는 확률적 기법목적대용량 집합 비교 시 연산 비용을 줄이고 효율적으로 유사도 추정필요성텍스트, 로그, 사용자 행동 데이터 등 고차원 데이터의 비교 최적화 필요2. 주요 특징특징설명효과자카드 유사도 근사교집합/합집합 비율을 해시값으로 근사연산량 감소서브라인어 알고리즘저장공간 및 계산 시간 최소화빅데이터 환경 최적화로..