728x90
반응형

유사도 검색 4

MTEB (Massive Text Embedding Benchmark)

개요MTEB(Massive Text Embedding Benchmark)는 텍스트 임베딩 모델의 성능을 다양한 다운스트림 태스크에서 종합적으로 평가하기 위한 대규모 벤치마크 프레임워크이다. Semantic Search, Clustering, Classification 등 실제 언어 응용 시나리오를 포괄하며, 언어별/도메인별 모델 비교와 진화된 벤치마크 기준 수립에 기여하고 있다.1. 개념 및 정의 항목 설명 정의텍스트 임베딩 모델을 다양한 자연어 처리 태스크로 평가하는 벤치마크 모음목적범용 임베딩 모델의 실제 적용 성능 정량화 및 비교필요성기존 벤치마크는 태스크/도메인별로 단편적 평가만 가능했음Hugging Face와 공동 연구로 유지되며, 지속적으로 데이터셋이 업데이트된다.2. 특징특징설명비교멀티태스..

Topic 2026.01.12

OPQ (Optimized Product Quantization)

개요OPQ(Optimized Product Quantization)는 고차원 벡터 데이터를 유사도 기반 검색에서 효율적으로 처리하기 위한 압축 기반 인덱싱 기법이다. Facebook AI Research가 제안한 이 방식은 Product Quantization(PQ)의 확장으로, 원본 벡터 공간을 선형 변환하여 PQ의 성능을 향상시킨다. 대규모 벡터 검색 시스템(예: Faiss, Milvus 등)에서 핵심 기술로 사용된다.1. 개념 및 정의 항목 설명 정의PQ 이전에 선형 회전을 적용하여 양자화 손실을 최소화하는 벡터 압축 기법목적고차원 벡터의 근사 최근접 검색 효율성과 정확도 향상필요성벡터 유사도 검색의 성능과 저장 공간을 동시에 최적화할 필요OPQ는 "양자화 오차 최소화"를 위한 Rotation M..

Topic 2026.01.12

OpenSearch Vector Engine (OVE)

개요OpenSearch Vector Engine(OVE)은 OpenSearch에 내장된 벡터 기반 검색(ANN: Approximate Nearest Neighbor)을 고속, 고정확도로 수행할 수 있도록 설계된 벡터 검색 전용 엔진입니다. 대규모 텍스트, 이미지, 코드, 오디오 등 임베딩된 데이터의 유사도 기반 검색에 특화되어 있으며, LLM 기반 RAG(Retrieval-Augmented Generation) 아키텍처의 핵심 구성 요소로 각광받고 있습니다.1. 개념 및 정의 항목 설명 정의OpenSearch Vector Engine은 벡터 임베딩 기반의 유사 검색 기능을 제공하는 OpenSearch의 통합 검색 모듈입니다.목적텍스트·이미지 등 임베딩된 벡터 간 근접 유사도를 빠르고 정확하게 검색필요성..

Topic 2025.05.16

ANN (Approximate Nearest Neighbor)

개요ANN(Approximate Nearest Neighbor)은 고차원 벡터 공간에서 주어진 쿼리 벡터에 가장 가까운 이웃(neighbor)을 빠르게 찾기 위한 근사 알고리즘이다. 정확한 최근접 탐색(Exact NN)은 계산 비용이 매우 높기 때문에, ANN은 속도와 정확도 사이의 균형을 추구하며 대규모 데이터셋에서 벡터 검색, 이미지 유사도 탐색, AI 임베딩 검색 등에 널리 활용된다.1. 개념 및 정의ANN은 고차원 공간에서 거리(코사인 거리, 유클리드 거리 등)를 기준으로 가장 가까운 벡터를 찾는 과정을 근사적으로 처리하는 기법이다. 정확한 결과 대신 유사한(approximate) 결과를 빠르게 도출하는 데 초점을 맞춘다.목적: 계산 효율성을 극대화한 고속 벡터 검색필요성: 고차원에서의 NN 탐색..

Topic 2025.05.11
728x90
반응형