개요Flash Decoding은 LLM의 토큰 생성 속도를 획기적으로 향상시키기 위한 최신 디코딩 최적화 기술로, 추론 시 GPU 병목을 해소하고 응답 대기시간(latency)을 줄이는 데 초점을 맞춘 알고리즘입니다. 주로 실시간 챗봇, AI 비서, 스트리밍 생성형 AI 등에 적용되어 사용자 경험을 개선하고 서버 효율을 극대화합니다.1. 개념 및 정의Flash Decoding은 LLM의 디코딩 경로에서 계산 및 메모리 접근을 재구성하여, GPU 상에서 더 많은 병렬 처리를 가능하게 만드는 구조적 최적화 기법입니다.기본 구조: Non-AutoRegressive 디코딩 흐름에 가까운 최적화 구조핵심 전략: KV 캐시 재배열, Prefill/Decode 병렬화, 비동기 스트리밍 처리적용 범위: GPT 계열, ..