개요EAGLE(Efficiently Accelerated speculative Generation with Large Ensemble)는 LLM 추론 속도를 향상시키기 위해 제안된 추측 디코딩(Speculative Decoding) 기법으로, 다수의 소형 언어 모델이 병렬적으로 예측한 후보 토큰을 큰 LLM이 한번에 검증하는 방식이다. 기존의 토큰 단위 디코딩보다 월등히 빠른 응답 속도를 제공하며, 고성능 LLM을 실시간 응용에 적용하기 위한 핵심 기술 중 하나로 주목받는다.1. 개념 및 정의 항목 설명 정의작은 LLM들이 생성한 후보 시퀀스를 큰 LLM이 일괄 검증하여 추론 속도를 향상시키는 디코딩 전략목적대형 언어 모델의 토큰 생성 병목을 제거하여 처리 속도 개선필요성높은 정확도의 LLM을 실제 애..