728x90
반응형

대규모언어모델 2

KV-Cache Quantization (KVQ)

개요대규모 언어 모델(LLM: Large Language Model)의 추론 과정에서 가장 큰 자원 소모 중 하나는 **KV-Cache(Key-Value Cache)**입니다. 이는 모델이 문맥을 유지하고 빠른 응답을 생성하기 위해 사용하는 핵심 메커니즘이지만, 메모리 사용량이 기하급수적으로 증가한다는 단점이 있습니다. 이를 해결하기 위해 최근 연구에서는 KV-Cache Quantization(KVQ) 기법이 주목받고 있습니다. KVQ는 캐시 메모리를 양자화(Quantization)하여 성능 저하 없이 메모리와 연산 효율을 극대화하는 기술입니다.1. 개념 및 정의**KV-Cache Quantization(KVQ)**는 LLM 추론 시 생성되는 Key-Value Cache를 저정밀도 형식으로 변환하여 메모..

Topic 2025.09.09

Weight-Decomposed LoRA (WD-LoRA)

개요딥러닝 모델의 크기와 복잡성이 증가하면서 파인튜닝(Fine-tuning)의 비용과 자원 소모가 커지고 있습니다. LoRA(Low-Rank Adaptation)는 이러한 문제를 해결하기 위한 대표적인 접근 방식으로 주목받아왔습니다. 최근에는 LoRA의 한계를 개선한 **Weight-Decomposed LoRA(WD-LoRA)**가 등장하여 효율적인 모델 최적화와 자원 절감의 새로운 가능성을 제시하고 있습니다.1. 개념 및 정의**Weight-Decomposed LoRA(WD-LoRA)**는 기존 LoRA의 한계를 보완하여 더 효율적인 파라미터 효율적 학습(PEFT: Parameter-Efficient Fine-Tuning)을 지원하는 기법입니다. 핵심 아이디어는 기존 가중치를 분해(Decompositi..

Topic 2025.09.08
728x90
반응형