
개요RAG Evaluation Harness는 RAG(Retrieval-Augmented Generation) 기반 시스템의 응답 품질을 정량적, 정성적으로 측정하고 반복적으로 개선하기 위한 자동화된 평가 프레임워크다. 다양한 평가 지표와 평가자(모델/사람)를 통합하여 소스 기반 정확성, 맥락 정합성, 유용성 등을 다차원적으로 분석한다.1. 개념 및 정의RAG Evaluation Harness는 검색 기반 생성 시스템에서 입력 쿼리, 검색된 문서(Context), 생성 응답(Answer)을 기반으로 다양한 평가 기법을 적용해 응답 품질을 검증하는 자동화된 평가 툴 또는 프레임워크이다.목적: RAG 시스템의 품질 편차를 측정하고 개선 루프를 자동화기반 단위: (Query, Context, Generatio..