728x90
반응형

파인튜닝 7

KV-Cache Quantization (KVQ)

개요대규모 언어 모델(LLM: Large Language Model)의 추론 과정에서 가장 큰 자원 소모 중 하나는 **KV-Cache(Key-Value Cache)**입니다. 이는 모델이 문맥을 유지하고 빠른 응답을 생성하기 위해 사용하는 핵심 메커니즘이지만, 메모리 사용량이 기하급수적으로 증가한다는 단점이 있습니다. 이를 해결하기 위해 최근 연구에서는 KV-Cache Quantization(KVQ) 기법이 주목받고 있습니다. KVQ는 캐시 메모리를 양자화(Quantization)하여 성능 저하 없이 메모리와 연산 효율을 극대화하는 기술입니다.1. 개념 및 정의**KV-Cache Quantization(KVQ)**는 LLM 추론 시 생성되는 Key-Value Cache를 저정밀도 형식으로 변환하여 메모..

Topic 2025.09.09

Weight-Decomposed LoRA (WD-LoRA)

개요딥러닝 모델의 크기와 복잡성이 증가하면서 파인튜닝(Fine-tuning)의 비용과 자원 소모가 커지고 있습니다. LoRA(Low-Rank Adaptation)는 이러한 문제를 해결하기 위한 대표적인 접근 방식으로 주목받아왔습니다. 최근에는 LoRA의 한계를 개선한 **Weight-Decomposed LoRA(WD-LoRA)**가 등장하여 효율적인 모델 최적화와 자원 절감의 새로운 가능성을 제시하고 있습니다.1. 개념 및 정의**Weight-Decomposed LoRA(WD-LoRA)**는 기존 LoRA의 한계를 보완하여 더 효율적인 파라미터 효율적 학습(PEFT: Parameter-Efficient Fine-Tuning)을 지원하는 기법입니다. 핵심 아이디어는 기존 가중치를 분해(Decompositi..

Topic 2025.09.08

P-Tuning v2

개요P-Tuning v2는 파라미터 효율적인 학습(Parameter-Efficient Tuning, PET) 기법 중 하나로, 사전 학습된 대형 언어 모델(LLM)의 파라미터를 고정한 채로 소량의 추가 파라미터만 학습해 특정 태스크에 최적화할 수 있는 기법이다. 특히 수십억 개 파라미터를 가진 LLM에 대해 GPU 메모리 부담을 줄이면서도 고성능을 유지할 수 있어 실제 산업 현장에서 주목받고 있다.1. 개념 및 정의 항목 설명 정의P-Tuning v2는 임베딩 레이어 대신 미세 조정 가능한 연속 벡터(prompt)를 삽입해 LLM의 추론 능력을 강화하는 방법목적대규모 모델의 파인튜닝 시 자원 사용 최소화 및 태스크 적응력 향상필요성전체 파라미터 튜닝 시 GPU 비용 증가 및 overfitting 발생 ..

Topic 2025.06.14

HyperNetworks

개요HyperNetworks는 다른 신경망의 가중치(파라미터)를 생성하는 '메타 네트워크'입니다. 기존 딥러닝 모델이 정적인 파라미터를 학습하는 반면, HyperNetwork는 주어진 입력이나 조건에 따라 동적으로 파라미터를 생성합니다. 이 접근은 모델 경량화, 다작업 학습(Multi-task learning), 신속한 적응 학습(Few-shot/Meta-learning) 등에서 효율성과 유연성을 제공합니다.1. 개념 및 정의 항목 설명 비고 정의다른 신경망의 가중치를 동적으로 생성하는 신경망Ha et al., 2016 첫 제안목적파라미터 재사용 및 생성 기반 동적 학습 구조 구현모델 간 유연한 파라미터 공유 가능필요성고정 파라미터 구조의 유연성 한계 극복Few-shot, Continual Learn..

Topic 2025.05.30

IA³(Input-Aware Adapter)

개요IA³(Input-Aware Adapter)은 사전 학습된 언어 모델(PLM)을 다양한 태스크에 효율적으로 적응시키기 위한 경량화 파인튜닝 전략으로, 입력에 따라 동적으로 조정되는 어댑터 파라미터를 통해 적은 학습 비용으로 높은 성능을 실현합니다. 기존의 Adapter 기법보다 더욱 파라미터 효율적이며, 자연어 처리(NLP), 음성 인식 등 다양한 분야에서 확장성과 실용성을 인정받고 있습니다.1. 개념 및 정의IA³는 입력 특성(input features)에 따라 학습 가능한 게이트(gating) 벡터를 사용해 Transformer 계층의 각 선형 연산에 스케일 파라미터를 곱함으로써 미세 조정을 수행합니다.핵심 원리: 입력 인식 스케일 벡터로 출력값 조정업데이트 대상: 어댑터 파라미터만 학습, 기존 ..

Topic 2025.05.22

BitFit(Bias Term Fine-Tuning)

개요BitFit(Bias Term Fine-Tuning)은 대규모 사전학습 언어모델(PLM)을 효율적으로 파인튜닝하기 위해 도입된 경량화 튜닝 전략입니다. 전체 모델의 수많은 파라미터 중 오직 '바이어스(bias)' 항목만을 조정함으로써 최소한의 학습으로도 우수한 성능을 확보할 수 있는 것이 특징입니다. 메모리·계산 효율을 극대화하면서도 성능 손실 없이 다양한 다운스트림 태스크에 적용 가능해, LLM 시대의 실용적 튜닝 전략으로 각광받고 있습니다.1. 개념 및 정의BitFit은 Fine-Tuning 대상 파라미터를 'bias' 항목으로 제한하고, 그 외의 가중치(weight)는 모두 동결(frozen)한 상태로 학습을 수행하는 방법입니다.기본 전략: 전체 모델 파라미터 중 bias 항목만 업데이트설계 철..

Topic 2025.05.22

Delta-Tuning

개요Delta-Tuning은 대규모 사전 학습 모델(PLM, Pretrained Language Model)을 다양한 다운스트림 태스크에 맞게 빠르고 효율적으로 적응시키기 위한 경량화 파인튜닝 기법입니다. 기존의 전체 파라미터 업데이트 방식(Fine-Tuning)과 달리, 모델 파라미터의 일부분만 조정하거나 새로운 적은 수의 파라미터만 추가 학습하여, 메모리 사용량을 줄이고 학습 속도를 향상시킵니다.1. 개념 및 정의Delta-Tuning은 ‘Δ(델타)’ 즉, 기존 사전 학습 모델에서의 변화량만 학습하는 접근 방식입니다.핵심 개념: 전체 모델 파라미터를 유지하고, 소량의 추가 파라미터만 학습기반 철학: 모델은 이미 일반적 표현을 학습했으므로, 적은 변화로도 태스크 적응 가능대상 모델: BERT, GPT,..

Topic 2025.05.22
728x90
반응형