728x90
반응형

중복제거 4

MinHash(Minimum Hashing)

개요MinHash(Minimum Hashing)는 집합 간 자카드 유사도(Jaccard Similarity)를 빠르게 근사 계산하기 위한 해시 기반 알고리즘입니다. 웹 페이지 중복 제거, 문서 클러스터링, 추천 시스템 등에서 대용량 데이터 간 유사도를 효율적으로 비교할 수 있도록 설계된 경량 알고리즘입니다.1. 개념 및 정의 항목 내용 정의집합 간 유사도를 추정하기 위해 최소 해시값들을 비교하는 확률적 기법목적대용량 집합 비교 시 연산 비용을 줄이고 효율적으로 유사도 추정필요성텍스트, 로그, 사용자 행동 데이터 등 고차원 데이터의 비교 최적화 필요2. 주요 특징특징설명효과자카드 유사도 근사교집합/합집합 비율을 해시값으로 근사연산량 감소서브라인어 알고리즘저장공간 및 계산 시간 최소화빅데이터 환경 최적화로..

Topic 2026.02.06

BorgBackup

개요BorgBackup(Borg)는 데이터 중복 제거(Deduplication), 압축(Compression), 암호화(Encryption) 기능을 기본으로 제공하는 고성능 명령줄 기반 백업 툴입니다. Linux/Unix 기반 시스템에서 빠르고 신뢰성 있는 백업을 위해 개발되었으며, 로컬 및 원격 백업, 파일별 복구, 마운트 가능한 스냅샷 등의 기능을 지원합니다. 서버 관리자는 물론 DevOps, 고급 사용자를 위한 백업 전략에 최적화된 도구입니다.1. 개념 및 정의 항목 내용 비고 정의중복 제거와 압축, 암호화를 기본 지원하는 CLI 기반 백업 프로그램Python 기반, BSD 라이선스목적신뢰성과 보안성을 갖춘 고속 백업 및 복원오프사이트 및 클라우드 백업에 적합필요성백업 용량 증가, 보안 요구 증..

Topic 2026.01.05

Restic

개요Restic은 고속, 고보안, 고효율성을 지향하는 오픈소스 **명령줄 기반 백업 도구(CLI Backup Tool)**입니다. 클라우드 저장소, 로컬 디스크, SFTP, REST 서버 등 다양한 백엔드 지원과 함께, 기본적으로 암호화, 중복 제거, 스냅샷 관리를 제공하여 데이터 무결성과 안전성을 보장합니다. Go 언어로 개발되어 크로스플랫폼을 지원하며, DevOps, 서버 관리자, 개인 사용자 모두에게 이상적인 백업 솔루션으로 각광받고 있습니다.1. 개념 및 정의 항목 내용 비고 정의CLI 기반의 빠르고 안전한 백업 및 복구 오픈소스 도구MIT 라이선스, Go 언어 구현목적로컬/원격 백업을 안전하게 수행하고, 효율적으로 복구암호화 및 중복 제거 내장필요성스크립트 자동화, 클라우드 백업, 오프사이트..

Topic 2026.01.05

해시 테이블(Hash Table)

개요해시 테이블(Hash Table)은 키(Key)를 해시 함수(Hash Function)를 통해 고정된 인덱스로 변환하여 값을 저장하는 자료구조이다. 평균적으로 삽입, 삭제, 탐색 연산이 **O(1)**로 매우 빠르며, 파이썬의 dict, set, 자바의 HashMap, C++의 unordered_map 등 거의 모든 언어의 핵심 자료구조로 활용된다.1. 개념 및 정의 항목 설명 키(Key)값을 식별하기 위한 고유한 값값(Value)저장할 실제 데이터해시 함수키를 배열 인덱스로 변환하는 함수버킷(Bucket)해시 충돌이 발생할 수 있는 배열의 각 칸해시 함수는 키를 숫자로 변환해 해시 테이블의 인덱스로 매핑한다.2. 해시 함수와 충돌해시 함수(Hash Function): hash(key) % tabl..

Topic 2025.03.30
728x90
반응형