개요Speculative Sampling은 LLM 추론 시 디코딩 속도를 비약적으로 향상시키기 위한 전략으로, 빠르지만 부정확한 작은 모델(Speculator)이 후보 토큰 시퀀스를 먼저 생성하고, 이를 큰 모델(Main Model)이 검증하는 방식으로 작동합니다. 이중 추론 구조를 통해 정확도를 유지하면서도 지연 시간을 획기적으로 줄일 수 있어, 실시간 응답이 중요한 AI 서비스에 널리 활용됩니다.1. 개념 및 정의Speculative Sampling은 빠른 예측기(Speculator)와 정확한 검증기(Main LLM)의 조합을 활용해, 다수의 토큰을 한 번에 생성하고 이를 일괄적으로 검증하는 비동기적 디코딩 최적화 기법입니다.핵심 구조: Fast Draft → Selectively Accept → C..