728x90
반응형

KV-Cache 2

KV-Cache Quantization (KVQ)

개요대규모 언어 모델(LLM: Large Language Model)의 추론 과정에서 가장 큰 자원 소모 중 하나는 **KV-Cache(Key-Value Cache)**입니다. 이는 모델이 문맥을 유지하고 빠른 응답을 생성하기 위해 사용하는 핵심 메커니즘이지만, 메모리 사용량이 기하급수적으로 증가한다는 단점이 있습니다. 이를 해결하기 위해 최근 연구에서는 KV-Cache Quantization(KVQ) 기법이 주목받고 있습니다. KVQ는 캐시 메모리를 양자화(Quantization)하여 성능 저하 없이 메모리와 연산 효율을 극대화하는 기술입니다.1. 개념 및 정의**KV-Cache Quantization(KVQ)**는 LLM 추론 시 생성되는 Key-Value Cache를 저정밀도 형식으로 변환하여 메모..

Topic 2025.09.09

TensorRT-LLM

개요TensorRT-LLM은 NVIDIA가 개발한 대규모 언어 모델(LLM) 추론 최적화 프레임워크로, GPU 기반에서 Transformer 기반 모델의 효율적 실행을 위한 고성능 런타임 환경을 제공합니다. FP8, Tensor Parallelism, Paginated KV-Cache, 비동기 텍스트 스트리밍 등 다양한 고급 기능을 지원하며, 개발자가 손쉽게 LLM을 배포하고 상용화할 수 있도록 설계되어 있습니다.이 글에서는 TensorRT-LLM의 구조, 주요 기술, 성능 특성, 활용 사례 등을 분석하여 LLM 인프라 성능 극대화를 위한 전략을 소개합니다.1. 개념 및 정의 항목 설명 정의TensorRT-LLM은 NVIDIA GPU에서 Transformer 기반 모델을 빠르고 효율적으로 실행하기 위한..

Topic 2025.09.07
728x90
반응형