728x90
반응형

해시알고리즘 4

MinHash(Minimum Hashing)

개요MinHash(Minimum Hashing)는 집합 간 자카드 유사도(Jaccard Similarity)를 빠르게 근사 계산하기 위한 해시 기반 알고리즘입니다. 웹 페이지 중복 제거, 문서 클러스터링, 추천 시스템 등에서 대용량 데이터 간 유사도를 효율적으로 비교할 수 있도록 설계된 경량 알고리즘입니다.1. 개념 및 정의 항목 내용 정의집합 간 유사도를 추정하기 위해 최소 해시값들을 비교하는 확률적 기법목적대용량 집합 비교 시 연산 비용을 줄이고 효율적으로 유사도 추정필요성텍스트, 로그, 사용자 행동 데이터 등 고차원 데이터의 비교 최적화 필요2. 주요 특징특징설명효과자카드 유사도 근사교집합/합집합 비율을 해시값으로 근사연산량 감소서브라인어 알고리즘저장공간 및 계산 시간 최소화빅데이터 환경 최적화로..

Topic 2026.02.06

CRUSH(Controlled Replication Under Scalable Hashing)

개요CRUSH는 Ceph 분산 파일 시스템에서 사용하는 데이터 배치 알고리즘으로, 데이터의 위치를 중앙 메타데이터 없이 결정하는 탈중앙화된 방식의 해시 기반 알고리즘입니다. 확장성과 안정성, 데이터 균형 유지가 핵심이며, OSD(Object Storage Daemon) 간에 데이터를 자동으로 분산 배치합니다.1. 개념 및 정의 항목 설명 정의분산 환경에서 데이터를 해시 기반으로 배치하고 복제하는 알고리즘목적데이터 균형, 확장성, 장애 복구 최적화필요성중앙 집중식 메타데이터로 인한 병목 제거, 자동 분산 배치 필요노드 추가/제거 시에도 일관된 데이터 분포와 최소한의 재배치 보장2. 특징특징설명비교메타데이터 비의존중앙 서버 없이 데이터 위치 계산HDFS는 네임노드 필요가중치 기반 분산디바이스 용량 비례로 ..

Topic 2026.01.27

Consistent Hashing

개요Consistent Hashing은 분산 시스템에서 데이터 노드 간의 균형 잡힌 분배와 최소한의 재조정을 보장하는 해시 알고리즘입니다. 서버 추가 또는 제거 시 전체 데이터를 재분배하지 않고 일부 키만 이동시키는 구조로, 캐시 시스템, 분산 DB, 로드 밸런싱 등 다양한 분야에서 필수적인 핵심 기술로 활용됩니다.1. 개념 및 정의 항목 설명 비고 정의해시 공간을 원형으로 구성하여 데이터와 서버를 동일한 해시 방식으로 매핑하는 분산 해시 알고리즘Ring 구조 기반목적서버 증설/감소 시 데이터 재배치를 최소화확장성 중심 설계주요 활용캐시 서버, NoSQL DB, P2P 네트워크, CDN 등Memcached, Cassandra 등에서 사용해시의 안정성과 유연성을 극대화한 분산 시스템의 기본 구성 방식2..

Topic 2025.06.07

해시(Hash) 알고리즘

개요해시 알고리즘은 임의의 길이를 가진 데이터를 고정된 길이의 해시값으로 변환하는 암호학적 기술입니다. 데이터의 무결성 검증, 디지털 서명, 비밀번호 저장, 블록체인 등 다양한 보안 분야에서 핵심 역할을 하며, 빠른 연산성과 단방향성을 특징으로 합니다. 본 글에서는 해시 알고리즘의 개념, 특징, 주요 알고리즘, 활용 사례 및 보안 고려사항까지 실무 중심으로 설명합니다.1. 개념 및 정의해시 함수(Hash Function)는 입력 데이터를 고정된 크기의 출력값(해시값, 다이제스트)으로 변환하는 수학적 함수입니다. 이 해시값은 입력의 “지문”과 같으며, 원래 데이터를 유추할 수 없도록 설계된 단방향 함수입니다.2. 특징 특징 설명 활용성 단방향성해시값으로 원본 데이터를 유추할 수 없음비밀번호 보호, 인증..

Topic 2025.04.02
728x90
반응형