개요AgentBench는 대규모 언어 모델(LLM)의 실제 에이전트 수행 능력을 종합적으로 평가하기 위해 설계된 멀티태스크 벤치마크입니다. 단순 지식 회상이나 논리적 질의응답을 넘어, 다양한 환경에서의 문제 해결 능력, 협업, 도구 사용, 웹 인터페이스 조작 등 실제 작업 기반의 '에이전트 역할 수행 능력'을 정량화하고 비교할 수 있도록 설계되었습니다.1. 개념 및 정의AgentBench는 언어 모델이 다양한 도메인의 시뮬레이션 환경에서 실제 에이전트처럼 행동하는지 평가하는 프레임워크입니다.벤치마크 성격: 능동적 과제 해결, 다중 인터페이스 활용, 지능적 선택 평가목적: 실세계 태스크 기반의 LLM 에이전트 품질 측정범위: 8개 카테고리, 51개 에이전트 태스크로 구성2. 특징 항목 AgentBench..