728x90
반응형

int8 2

KV-Cache Quantization (KVQ)

개요대규모 언어 모델(LLM: Large Language Model)의 추론 과정에서 가장 큰 자원 소모 중 하나는 **KV-Cache(Key-Value Cache)**입니다. 이는 모델이 문맥을 유지하고 빠른 응답을 생성하기 위해 사용하는 핵심 메커니즘이지만, 메모리 사용량이 기하급수적으로 증가한다는 단점이 있습니다. 이를 해결하기 위해 최근 연구에서는 KV-Cache Quantization(KVQ) 기법이 주목받고 있습니다. KVQ는 캐시 메모리를 양자화(Quantization)하여 성능 저하 없이 메모리와 연산 효율을 극대화하는 기술입니다.1. 개념 및 정의**KV-Cache Quantization(KVQ)**는 LLM 추론 시 생성되는 Key-Value Cache를 저정밀도 형식으로 변환하여 메모..

Topic 2025.09.09

LoRA-INT8

개요LoRA-INT8은 파라미터 효율 미세 조정 기술인 LoRA(Low-Rank Adaptation)와 INT8 정수 양자화를 결합한 LLM(대규모 언어 모델) 경량화 및 튜닝 기법이다. 적은 연산 자원으로도 기존 성능을 유지하면서 모델을 학습 또는 미세 조정할 수 있어, 비용 효율적 AI 서비스 구축에 매우 적합하다.1. 개념 및 정의 항목 설명 정의LLM의 고정된 파라미터에 LoRA를 적용하고, 전체 모델 가중치를 INT8로 양자화하여 미세 조정하는 방법목적메모리 사용량과 연산 비용을 최소화하면서도 성능을 유지하는 튜닝 방식 제공필요성GPU 메모리 한계, 클라우드 비용, 배포 효율성 등에 대한 실용적 대응 요구2. 특징특징설명기존 방법 대비 차별점저메모리 학습전체 파라미터가 아닌 LoRA 모듈만 학..

Topic 2025.07.18
728x90
반응형