728x90
반응형

추론최적화 3

Test-Time Compute (TTC)

개요Test-Time Compute(TTC)는 학습이 아닌 추론(inference) 단계에서 추가적인 계산 자원을 투입하여 모델의 성능을 향상시키는 기법을 의미한다. 최근 LLM과 추론 중심 AI의 발전으로, 동일한 모델이라도 더 많은 계산(샘플링, 반복 추론, 체인 오브 쏘트 등)을 통해 정확도와 안정성을 높일 수 있다는 점이 주목받고 있다. TTC는 비용과 성능 사이의 트레이드오프를 동적으로 조절할 수 있는 핵심 전략으로, 고정 모델 성능 한계를 보완하는 중요한 접근 방식이다.1. 개념 및 정의TTC는 모델 파라미터를 변경하지 않고, 추론 시점에 계산량을 증가시켜 더 나은 결과를 도출하는 기술이다. 이는 샘플링 횟수 증가, 반복 추론, 다중 경로 탐색 등을 통해 구현된다.2. 특징구분설명비교/차별점동..

Topic 2026.05.15

SparseGPT One-Shot Pruning

개요SparseGPT One-Shot Pruning은 사전 학습된 대형 언어 모델(LLM)을 희소화(sparsification)하여 연산량과 메모리 요구량을 줄이기 위한 혁신적인 기법입니다. 이 방법은 단 한 번의 forward pass만으로 전체 모델의 가중치를 효율적으로 제거하는 특징을 가지며, 복잡한 재학습(fine-tuning) 없이도 높은 정확도를 유지합니다.1. 개념 및 정의 항목 내용 정의One-shot 방식으로 파라미터를 희소화하는 LLM 전처리 기법목적모델 추론 속도 향상 및 메모리 사용량 감소방식단일 forward pass 기반 가중치 중요도 평가 후 pruning이 방식은 특히 학습 자원이 부족한 환경에서도 기존 GPT 모델을 경량화하여 빠르게 배포할 수 있게 합니다.2. 특징특징설..

Topic 2025.05.26

Speculative Sampling

개요Speculative Sampling은 LLM 추론 시 디코딩 속도를 비약적으로 향상시키기 위한 전략으로, 빠르지만 부정확한 작은 모델(Speculator)이 후보 토큰 시퀀스를 먼저 생성하고, 이를 큰 모델(Main Model)이 검증하는 방식으로 작동합니다. 이중 추론 구조를 통해 정확도를 유지하면서도 지연 시간을 획기적으로 줄일 수 있어, 실시간 응답이 중요한 AI 서비스에 널리 활용됩니다.1. 개념 및 정의Speculative Sampling은 빠른 예측기(Speculator)와 정확한 검증기(Main LLM)의 조합을 활용해, 다수의 토큰을 한 번에 생성하고 이를 일괄적으로 검증하는 비동기적 디코딩 최적화 기법입니다.핵심 구조: Fast Draft → Selectively Accept → C..

Topic 2025.05.22
728x90
반응형