728x90
반응형

2026/01/12 2

MTEB (Massive Text Embedding Benchmark)

개요MTEB(Massive Text Embedding Benchmark)는 텍스트 임베딩 모델의 성능을 다양한 다운스트림 태스크에서 종합적으로 평가하기 위한 대규모 벤치마크 프레임워크이다. Semantic Search, Clustering, Classification 등 실제 언어 응용 시나리오를 포괄하며, 언어별/도메인별 모델 비교와 진화된 벤치마크 기준 수립에 기여하고 있다.1. 개념 및 정의 항목 설명 정의텍스트 임베딩 모델을 다양한 자연어 처리 태스크로 평가하는 벤치마크 모음목적범용 임베딩 모델의 실제 적용 성능 정량화 및 비교필요성기존 벤치마크는 태스크/도메인별로 단편적 평가만 가능했음Hugging Face와 공동 연구로 유지되며, 지속적으로 데이터셋이 업데이트된다.2. 특징특징설명비교멀티태스..

Topic 2026.01.12

OPQ (Optimized Product Quantization)

개요OPQ(Optimized Product Quantization)는 고차원 벡터 데이터를 유사도 기반 검색에서 효율적으로 처리하기 위한 압축 기반 인덱싱 기법이다. Facebook AI Research가 제안한 이 방식은 Product Quantization(PQ)의 확장으로, 원본 벡터 공간을 선형 변환하여 PQ의 성능을 향상시킨다. 대규모 벡터 검색 시스템(예: Faiss, Milvus 등)에서 핵심 기술로 사용된다.1. 개념 및 정의 항목 설명 정의PQ 이전에 선형 회전을 적용하여 양자화 손실을 최소화하는 벡터 압축 기법목적고차원 벡터의 근사 최근접 검색 효율성과 정확도 향상필요성벡터 유사도 검색의 성능과 저장 공간을 동시에 최적화할 필요OPQ는 "양자화 오차 최소화"를 위한 Rotation M..

Topic 2026.01.12
728x90
반응형