개요HELM(Holistic Evaluation of Language Models)은 Stanford CRFM(Center for Research on Foundation Models)에서 개발한 LLM 평가 프레임워크로, 단순 정확도 중심의 평가를 넘어, 편향성, 유해성, 효율성, 견고성 등 다양한 관점에서 언어 모델의 품질을 정량적으로 분석하고 비교하는 것을 목표로 합니다.1. 개념 및 정의 항목 내용 정의LLM을 정확성 외의 다면적 기준으로 평가하는 표준화된 프레임워크목적다양한 환경과 조건에서 LLM의 강점과 한계를 투명하게 분석필요성LLM이 실제 사용되는 상황에서 발생할 수 있는 다양한 리스크 고려 필요2. 주요 특징특징설명장점다차원 평가 기준정확도뿐 아니라 편향, 유해성, 효율성 등 총 7개 ..