728x90
반응형

딥러닝최적화 5

KV-Cache Quantization (KVQ)

개요대규모 언어 모델(LLM: Large Language Model)의 추론 과정에서 가장 큰 자원 소모 중 하나는 **KV-Cache(Key-Value Cache)**입니다. 이는 모델이 문맥을 유지하고 빠른 응답을 생성하기 위해 사용하는 핵심 메커니즘이지만, 메모리 사용량이 기하급수적으로 증가한다는 단점이 있습니다. 이를 해결하기 위해 최근 연구에서는 KV-Cache Quantization(KVQ) 기법이 주목받고 있습니다. KVQ는 캐시 메모리를 양자화(Quantization)하여 성능 저하 없이 메모리와 연산 효율을 극대화하는 기술입니다.1. 개념 및 정의**KV-Cache Quantization(KVQ)**는 LLM 추론 시 생성되는 Key-Value Cache를 저정밀도 형식으로 변환하여 메모..

Topic 2025.09.09

Weight-Decomposed LoRA (WD-LoRA)

개요딥러닝 모델의 크기와 복잡성이 증가하면서 파인튜닝(Fine-tuning)의 비용과 자원 소모가 커지고 있습니다. LoRA(Low-Rank Adaptation)는 이러한 문제를 해결하기 위한 대표적인 접근 방식으로 주목받아왔습니다. 최근에는 LoRA의 한계를 개선한 **Weight-Decomposed LoRA(WD-LoRA)**가 등장하여 효율적인 모델 최적화와 자원 절감의 새로운 가능성을 제시하고 있습니다.1. 개념 및 정의**Weight-Decomposed LoRA(WD-LoRA)**는 기존 LoRA의 한계를 보완하여 더 효율적인 파라미터 효율적 학습(PEFT: Parameter-Efficient Fine-Tuning)을 지원하는 기법입니다. 핵심 아이디어는 기존 가중치를 분해(Decompositi..

Topic 2025.09.08

엠나스넷(MnasNet)

개요MnasNet(엠나스넷)은 Google Brain이 발표한 Neural Architecture Search(NAS) 기반의 경량 CNN 모델로, 모바일 환경에서 정확도와 지연시간(latency)을 동시에 최적화하기 위해 설계된 딥러닝 구조입니다. NASNet, MobileNetV2 등의 단점을 보완하며, 실제 디바이스 측정 지연시간을 학습 목표에 직접 반영한 점에서 차별화됩니다. Edge AI·온디바이스 AI의 실용화를 위한 핵심 구조 중 하나입니다.1. 개념 및 정의 항목 설명 정의실시간 추론이 필요한 모바일 디바이스 환경에 맞춰 자동 설계된 NAS 기반 CNN 모델개발 주체Google Brain (2018, CVPR 논문 발표)핵심 특징다목표 최적화(Objective Trade-off: Accu..

Topic 2025.04.24

Low-Rank Factorization(저랭크 분해)

개요Low-Rank Factorization(저랭크 분해)은 고차원 행렬을 보다 낮은 랭크(rank)의 행렬로 분해하여, 데이터 또는 모델의 복잡도를 줄이는 대표적인 행렬 분해 기법입니다. 주로 딥러닝 모델의 가중치 행렬 압축, 차원 축소, 추천 시스템, 자연어 처리 등 다양한 분야에서 활용되며, 연산량을 줄이면서도 원래의 정보를 최대한 유지하는 것이 핵심입니다.1. 개념 및 정의저랭크 분해는 원래의 큰 행렬 **A (m x n)**를 두 개의 저차원 행렬 **U (m x k)**와 **V (k x n)**로 분해하는 방식입니다. 여기서 **k는 m, n보다 작은 랭크(rank)**로, 근사 행렬을 구성하여 연산을 단순화합니다.A ≈ U × V 형태로 근사화차원 축소와 정보 압축이 동시에 가능SVD(Si..

Topic 2025.04.09

Pruning with Lottery Ticket Hypothesis(로터리 티켓 가설 기반 가지치기)

개요Pruning with Lottery Ticket Hypothesis(로터리 티켓 가설 기반 가지치기)는 복잡한 딥러닝 모델 속에서 성능은 유지하면서도 훨씬 작고 효율적인 서브네트워크(Subnetworks)를 찾아내는 최적화 전략입니다. 이 개념은 모델 압축 및 추론 최적화의 중요한 전환점을 제시하며, 특히 자원이 제한된 엣지 디바이스에서 경량화된 모델 구현에 강력한 효과를 발휘합니다.1. 개념 및 정의Lottery Ticket Hypothesis(LTH)는 2019년 Frankle & Carbin 논문에서 제시된 이론으로, 초기 무작위로 설정된 딥러닝 모델 내에는 동일한 초기화값과 동일한 구조로 훈련했을 때도 원래 모델과 유사한 성능을 낼 수 있는 'Winning Ticket'(당첨 티켓)이 존재한..

Topic 2025.04.09
728x90
반응형