개요G-Eval은 LLM(대형 언어 모델)이 생성한 텍스트 응답을 기존의 자동화된 수치 평가 지표(BLEU, ROUGE 등)가 아닌, 또 다른 LLM(GPT) 기반으로 평가하는 프레임워크이다. 정성적 판단이 필요한 응답의 정확성, 유창성, 관련성 등을 GPT로 평가함으로써, 사람 수준의 정밀한 품질 판단을 자동화한다.1. 개념 및 정의 항목 설명 정의GPT 계열 언어 모델을 활용하여 텍스트 응답을 정성적으로 평가하는 LLM 평가 프레임워크목적사람 수준의 기준으로 응답 품질 평가 자동화필요성기존 수치 기반 지표의 한계 (의미 반영 부족 등) 극복G-Eval은 "Prompt-as-a-Judge" 철학을 기반으로 한다.2. 특징특징설명비교기준 명시 평가기준별(정확성, 논리성, 유창성 등) 세분화 평가단일 점..