728x90
반응형

ai벤치마크 3

HPL-MxP (High Performance Linpack - Mixed Precision)

개요HPL-MxP(High Performance Linpack for Mixed Precision)는 기존 HPL 벤치마크(HPL Classic)의 확장으로, AI 및 HPC 워크로드의 혼합 정밀도(Mixed Precision) 연산 성능을 평가하기 위한 벤치마크입니다. FLOP 수치를 기준으로 시스템의 실제 AI/ML 연산 처리 능력을 반영하기 위해 도입되었으며, TOP500, Green500 등의 슈퍼컴퓨터 순위 평가에서 중요한 지표로 사용됩니다.1. 개념 및 정의 항목 내용 비고 정의AI/ML 환경에서 혼합 정밀도 행렬 연산을 수행하는 Linpack 기반 벤치마크HPL-AI → HPL-MxP로 진화목적AI 정밀도(예: FP16)와 과학 계산용 정밀도(FP64)를 함께 고려한 실측 성능 측정Pea..

Topic 2026.01.07

MLPerf

개요MLPerf는 머신러닝 시스템의 성능을 공정하고 재현 가능한 방식으로 평가하기 위한 국제 벤치마크 표준입니다. Google, NVIDIA, Intel, Meta 등 업계 리더들이 참여하는 MLCommons가 주관하며, **훈련(Training)**과 추론(Inference) 부문으로 나뉘어 다양한 딥러닝 모델을 기준으로 하드웨어, 프레임워크, 시스템의 성능을 비교할 수 있도록 설계되어 있습니다. AI 시스템 도입 시 의사결정의 기준이 되는 핵심 지표입니다.1. 개념 및 정의 항목 내용 비고 정의머신러닝 모델의 훈련 및 추론 성능을 측정하는 공개 벤치마크 스위트MLCommons 재단 운영목적벤더 간 공정한 AI 성능 비교 및 산업 표준 정립하드웨어/프레임워크 독립적 평가필요성AI 인프라 선택 시 신..

Topic 2026.01.07

Holistic Evaluation of Language Models (HELM)

개요HELM(Holistic Evaluation of Language Models)은 대형언어모델(LLM)의 성능을 단순 정확도나 정답률을 넘어, 공정성, 편향성, 신뢰성, 견고성, 효율성 등 다차원적 관점에서 정량·정성 평가하는 포괄적 벤치마크 프레임워크입니다. 스탠포드 CRFM(Center for Research on Foundation Models)이 주도하여 개발하였으며, LLM에 대한 책임 있는 도입과 운영을 위한 필수 도구로 부상하고 있습니다.1. 개념 및 정의 구분 내용 정의LLM을 다양한 사용 시나리오와 평가 차원에서 분석·비교하는 벤치마크 체계목적단일 지표 평가의 한계를 극복하고, LLM의 전반적 신뢰성 및 사회적 영향력까지 진단필요성AI 사용 확대에 따른 윤리·안전·공정성 문제를 사전..

Topic 2025.05.19
728x90
반응형