728x90
반응형

Dense Retrieval 3

Sparse–Dense Hybrid Indexing(희소–밀집 혼합 인덱싱)

개요Sparse–Dense Hybrid Indexing은 전통적인 희소(Sparse) 기반 키워드 검색(BM25 등)과 밀집(Dense) 벡터 임베딩 검색(Embedding Retrieval)을 결합한 검색 아키텍처이다. LLM 기반 RAG(Retrieval-Augmented Generation) 시스템이 확산되면서, 단순 키워드 검색 또는 벡터 검색 단독 방식의 한계를 보완하기 위한 하이브리드 전략이 주목받고 있다.Sparse 인덱스는 정확한 키워드 매칭에 강점이 있으며, Dense 인덱스는 의미 기반(Semantic) 검색에 강하다. Hybrid Indexing은 두 방식을 결합하여 검색 정확도(Precision)와 재현율(Recall)을 동시에 개선하는 것을 목표로 한다.1. 개념 및 정의Spars..

Topic 2026.03.05

Cross-Encoder Rerank

개요Cross-Encoder Rerank는 대규모 검색 시스템에서 초기 검색 결과(candidate set)에 대해 문서와 쿼리를 함께 입력으로 사용하여, 정밀한 의미 기반 점수를 계산하고 상위 결과를 재정렬하는 방식의 랭킹 기법이다. Dense Retrieval의 효율성과 Cross-Encoder의 정밀도를 결합한 Hybrid Search 시스템에서 주로 사용된다.1. 개념 및 정의 항목 설명 정의문서-쿼리 쌍을 입력으로 받아 의미 유사도를 계산하는 딥러닝 기반 랭커 모델목적초기 검색 결과 중 의미적으로 정확한 상위 결과를 선별필요성Dense Vector 유사도 기반 검색의 정밀도 한계를 극복Semantic Search, RAG, QA 시스템 등에서 핵심 역할을 수행한다.2. 특징특징설명비교쿼리-문서..

Topic 2026.01.15

monoT5

개요monoT5는 Google의 T5(Text-to-Text Transfer Transformer) 모델을 기반으로 구축된 랭킹 모델로, 정보 검색(IR)에서 쿼리와 문서의 관련성을 평가하고 정렬하는 데 사용된다. 주로 Dense Retrieval 또는 BM25 등 초기 검색 결과(candidate set)에 대해 재정렬(rerank)하는 용도로 활용되며, Pointwise 방식으로 학습된다.1. 개념 및 정의 항목 설명 정의T5 모델을 활용하여 문서-쿼리 쌍의 관련성 점수를 예측하는 랭킹 모델목적정보 검색 결과의 정밀도 향상 및 사용자 응답의 질 개선필요성초기 검색 결과의 의미적 정합성을 보완하여 정밀한 문서 추천 실현monoT5는 다양한 쿼리-문서 데이터셋(MSMARCO 등) 기반으로 사전학습되었다..

Topic 2025.12.02
728x90
반응형