개요LLM Evaluation은 대규모 언어모델(LLM)의 성능, 정확성, 안정성, 안전성 등을 체계적으로 측정하고 검증하는 방법론이다. 생성형 AI가 다양한 산업에 적용되면서 단순 정확도 평가를 넘어, 환각(Hallucination), 편향(Bias), 안전성(Safety), 사용자 경험(UX)까지 포함한 다차원 평가가 중요해지고 있다. 최근에는 자동화 평가와 인간 평가를 결합한 하이브리드 방식이 표준으로 자리잡고 있다.1. 개념 및 정의LLM Evaluation은 언어모델이 생성한 결과의 품질과 신뢰성을 다양한 지표와 테스트를 통해 정량적·정성적으로 평가하는 체계이다.2. 특징구분설명비교/차별점다차원 평가정확도, 안전성, 편향 포함단일 지표 대비 종합적자동+수동 결합모델 기반 + 인간 평가자동 평가 ..