개요HELM(Holistic Evaluation of Language Models)은 대형언어모델(LLM)의 성능을 단순 정확도나 정답률을 넘어, 공정성, 편향성, 신뢰성, 견고성, 효율성 등 다차원적 관점에서 정량·정성 평가하는 포괄적 벤치마크 프레임워크입니다. 스탠포드 CRFM(Center for Research on Foundation Models)이 주도하여 개발하였으며, LLM에 대한 책임 있는 도입과 운영을 위한 필수 도구로 부상하고 있습니다.1. 개념 및 정의 구분 내용 정의LLM을 다양한 사용 시나리오와 평가 차원에서 분석·비교하는 벤치마크 체계목적단일 지표 평가의 한계를 극복하고, LLM의 전반적 신뢰성 및 사회적 영향력까지 진단필요성AI 사용 확대에 따른 윤리·안전·공정성 문제를 사전..