728x90
반응형

llm 평가 3

G-Eval

개요G-Eval은 LLM(대형 언어 모델)이 생성한 텍스트 응답을 기존의 자동화된 수치 평가 지표(BLEU, ROUGE 등)가 아닌, 또 다른 LLM(GPT) 기반으로 평가하는 프레임워크이다. 정성적 판단이 필요한 응답의 정확성, 유창성, 관련성 등을 GPT로 평가함으로써, 사람 수준의 정밀한 품질 판단을 자동화한다.1. 개념 및 정의 항목 설명 정의GPT 계열 언어 모델을 활용하여 텍스트 응답을 정성적으로 평가하는 LLM 평가 프레임워크목적사람 수준의 기준으로 응답 품질 평가 자동화필요성기존 수치 기반 지표의 한계 (의미 반영 부족 등) 극복G-Eval은 "Prompt-as-a-Judge" 철학을 기반으로 한다.2. 특징특징설명비교기준 명시 평가기준별(정확성, 논리성, 유창성 등) 세분화 평가단일 점..

Topic 2026.01.15

MTEB (Massive Text Embedding Benchmark)

개요MTEB(Massive Text Embedding Benchmark)는 텍스트 임베딩 모델의 성능을 다양한 다운스트림 태스크에서 종합적으로 평가하기 위한 대규모 벤치마크 프레임워크이다. Semantic Search, Clustering, Classification 등 실제 언어 응용 시나리오를 포괄하며, 언어별/도메인별 모델 비교와 진화된 벤치마크 기준 수립에 기여하고 있다.1. 개념 및 정의 항목 설명 정의텍스트 임베딩 모델을 다양한 자연어 처리 태스크로 평가하는 벤치마크 모음목적범용 임베딩 모델의 실제 적용 성능 정량화 및 비교필요성기존 벤치마크는 태스크/도메인별로 단편적 평가만 가능했음Hugging Face와 공동 연구로 유지되며, 지속적으로 데이터셋이 업데이트된다.2. 특징특징설명비교멀티태스..

Topic 2026.01.12

RAGAS

개요RAGAS(Retrieval-Augmented Generation Assessment Score)는 RAG 기반 LLM 시스템의 응답 품질을 체계적으로 측정하기 위한 평가 프레임워크입니다. 신뢰도, 관련성, 정확성, 유창성 등 여러 항목에 대해 정량적 지표를 산출하며, 실험 또는 운영 환경에서 RAG 시스템을 개선하는 데 필수적인 도구로 자리 잡고 있습니다.본 글에서는 RAGAS의 개념, 지표 구조, 평가 방식, 기술 요소, 활용 사례 등을 통해 LLM 평가 자동화의 전략적 도입 방안을 소개합니다.1. 개념 및 정의 항목 설명 정의RAGAS는 RAG 시스템의 응답 품질을 다양한 관점에서 평가하는 오픈소스 평가 지표 프레임워크입니다.목적RAG 응답에 대한 품질 관리 및 개선을 위한 정량적 기준 제공필..

Topic 2025.09.07
728x90
반응형