개요대규모 언어 모델(LLM: Large Language Model)의 추론 과정에서 가장 큰 자원 소모 중 하나는 **KV-Cache(Key-Value Cache)**입니다. 이는 모델이 문맥을 유지하고 빠른 응답을 생성하기 위해 사용하는 핵심 메커니즘이지만, 메모리 사용량이 기하급수적으로 증가한다는 단점이 있습니다. 이를 해결하기 위해 최근 연구에서는 KV-Cache Quantization(KVQ) 기법이 주목받고 있습니다. KVQ는 캐시 메모리를 양자화(Quantization)하여 성능 저하 없이 메모리와 연산 효율을 극대화하는 기술입니다.1. 개념 및 정의**KV-Cache Quantization(KVQ)**는 LLM 추론 시 생성되는 Key-Value Cache를 저정밀도 형식으로 변환하여 메모..