728x90
반응형

llm벤치마크 2

HELM(Holistic Evaluation of Language Models)

개요HELM(Holistic Evaluation of Language Models)은 Stanford CRFM(Center for Research on Foundation Models)에서 개발한 LLM 평가 프레임워크로, 단순 정확도 중심의 평가를 넘어, 편향성, 유해성, 효율성, 견고성 등 다양한 관점에서 언어 모델의 품질을 정량적으로 분석하고 비교하는 것을 목표로 합니다.1. 개념 및 정의 항목 내용 정의LLM을 정확성 외의 다면적 기준으로 평가하는 표준화된 프레임워크목적다양한 환경과 조건에서 LLM의 강점과 한계를 투명하게 분석필요성LLM이 실제 사용되는 상황에서 발생할 수 있는 다양한 리스크 고려 필요2. 주요 특징특징설명장점다차원 평가 기준정확도뿐 아니라 편향, 유해성, 효율성 등 총 7개 ..

Topic 2026.02.08

HELM (Holistic Evaluation of Language Models)

개요HELM(Holistic Evaluation of Language Models)은 다양한 대규모 언어 모델(LLM)의 능력을 공정하고 포괄적으로 평가하기 위한 벤치마크 프레임워크입니다. 단순 정확도 측정에서 벗어나, 정확성, 편향성, 효율성, 유해성 등 다면적 기준을 기반으로 모델의 실사용 적합성을 판단할 수 있도록 설계되었습니다. Stanford CRFM(Center for Research on Foundation Models) 주도로 개발되었으며, GPT, Claude, PaLM, LLaMA 등 주요 LLM들을 비교 평가하는 지표로 활용됩니다.1. 개념 및 정의HELM은 단일 태스크 중심의 벤치마크 한계를 넘어, 언어 모델의 '실제 활용 가치'를 다양한 기준으로 측정하는 멀티태스크·멀티지표 평가 ..

Topic 2025.05.23
728x90
반응형