728x90
반응형

opensourcellm 2

lm-eval-harness

개요lm-eval-harness는 다양한 자연어 처리(NLP) 과제에 대해 LLM(Large Language Model)의 성능을 정량적으로 평가하기 위한 Python 기반 오픈소스 프레임워크입니다. EleutherAI에서 개발하였으며, GPT, LLaMA, PaLM, Claude, Mistral 등 다양한 언어 모델에 일관된 방식으로 벤치마크를 적용할 수 있는 범용 도구로 활용됩니다.1. 개념 및 정의 항목 내용 정의LLM의 언어 이해 및 생성 성능을 다양한 벤치마크를 통해 자동 평가하는 프레임워크목적모델 간 일관된 비교와 성능 추적, 학습 없이 추론(inference-only) 성능 확인필요성벤치마크마다 형식이 달라 생기는 평가 불일치를 통합하여 재현 가능한 실험 지원2. 주요 특징특징설명장점Pro..

Topic 2026.02.07

Purple Llama

개요생성형 AI(Generative AI)의 확산에 따라 AI 모델의 안전성(Safety) 및 **보안성(Security)**에 대한 요구가 점점 커지고 있습니다. 이에 대응하기 위해 Meta가 주도하여 공개한 오픈소스 프로젝트가 Purple Llama입니다. Purple Llama는 LLM과 멀티모달 AI 시스템의 위험성 평가, 오용 탐지, 출력 검증, 방어 전략을 위한 실용적인 리소스를 제공하는 프레임워크로, AI 모델의 책임 있는 사용과 배포를 돕기 위해 설계되었습니다.1. 개념 및 정의Purple Llama는 생성형 AI 시스템의 안전성과 보안성을 보장하기 위해 설계된 오픈소스 평가/방어 툴킷입니다. Meta는 이 프로젝트를 통해 기본 모델 및 응용 시스템의 취약점 평가, 위험 감지 정책 테스트,..

Topic 2025.07.10
728x90
반응형