728x90
반응형

llm평가 3

LLMOps

개요LLMOps는 LLM(Large Language Models) 기반 애플리케이션을 개발, 배포, 모니터링, 최적화하는 전체 수명 주기를 관리하는 운영 프레임워크이다. 기존 MLOps의 확장된 개념으로, LLM 특유의 대규모 파라미터, 프롬프트 관리, 레이턴시 대응, 평가 지표 등의 요구를 반영한다. GenAI 시대의 AI 운영 패러다임으로 주목받고 있다.1. 개념 및 정의 항목 내용 정의LLM 기반 시스템의 훈련, 배포, 프롬프트 관리, 성능 모니터링 등을 포함하는 엔드투엔드 운영 체계목적LLM 서비스 품질 보장, 비용 효율화, 사용자 경험 최적화구성 범위프롬프트 엔지니어링, 파인튜닝, 캐시, 보안·감사, A/B 테스트 등 포함LLMOps는 단순 모델 배포를 넘어서, 대규모 모델 특화 운영 자동화에..

Topic 2025.06.20

AgentBench

개요AgentBench는 대규모 언어 모델(LLM)의 실제 에이전트 수행 능력을 종합적으로 평가하기 위해 설계된 멀티태스크 벤치마크입니다. 단순 지식 회상이나 논리적 질의응답을 넘어, 다양한 환경에서의 문제 해결 능력, 협업, 도구 사용, 웹 인터페이스 조작 등 실제 작업 기반의 '에이전트 역할 수행 능력'을 정량화하고 비교할 수 있도록 설계되었습니다.1. 개념 및 정의AgentBench는 언어 모델이 다양한 도메인의 시뮬레이션 환경에서 실제 에이전트처럼 행동하는지 평가하는 프레임워크입니다.벤치마크 성격: 능동적 과제 해결, 다중 인터페이스 활용, 지능적 선택 평가목적: 실세계 태스크 기반의 LLM 에이전트 품질 측정범위: 8개 카테고리, 51개 에이전트 태스크로 구성2. 특징 항목 AgentBench..

Topic 2025.05.22

Holistic Evaluation of Language Models (HELM)

개요HELM(Holistic Evaluation of Language Models)은 대형언어모델(LLM)의 성능을 단순 정확도나 정답률을 넘어, 공정성, 편향성, 신뢰성, 견고성, 효율성 등 다차원적 관점에서 정량·정성 평가하는 포괄적 벤치마크 프레임워크입니다. 스탠포드 CRFM(Center for Research on Foundation Models)이 주도하여 개발하였으며, LLM에 대한 책임 있는 도입과 운영을 위한 필수 도구로 부상하고 있습니다.1. 개념 및 정의 구분 내용 정의LLM을 다양한 사용 시나리오와 평가 차원에서 분석·비교하는 벤치마크 체계목적단일 지표 평가의 한계를 극복하고, LLM의 전반적 신뢰성 및 사회적 영향력까지 진단필요성AI 사용 확대에 따른 윤리·안전·공정성 문제를 사전..

Topic 2025.05.19
728x90
반응형