개요MT-Bench는 대형 언어 모델(LLM)의 실제 사용 시나리오에 가까운 멀티턴(Multi-turn) 대화를 기반으로 모델의 응답 품질을 평가하는 벤치마크입니다. LMSYS(Large Model Systems Organization)에서 개발되었으며, 단일 질문-응답이 아닌 연속된 질의와 응답 흐름에서 모델의 일관성, 이해력, 창의성 등을 측정하는 데 중점을 둡니다.1. 개념 및 정의 항목 내용 정의LLM의 실용적 대화 성능을 측정하기 위한 멀티턴 대화형 평가 벤치마크목적단일 문항 기준의 한계를 넘어 실제 사용자 경험에 가까운 평가 구현필요성LLM이 실제 사용에서 보여주는 흐름, 맥락 유지 능력 등을 정량적으로 평가할 수단 부족2. 주요 특징특징설명장점멀티턴 구성80개의 다양한 주제 대화 시나리오 ..