728x90
반응형

llm최적화 6

P-Tuning v2

개요P-Tuning v2는 파라미터 효율적인 학습(Parameter-Efficient Tuning, PET) 기법 중 하나로, 사전 학습된 대형 언어 모델(LLM)의 파라미터를 고정한 채로 소량의 추가 파라미터만 학습해 특정 태스크에 최적화할 수 있는 기법이다. 특히 수십억 개 파라미터를 가진 LLM에 대해 GPU 메모리 부담을 줄이면서도 고성능을 유지할 수 있어 실제 산업 현장에서 주목받고 있다.1. 개념 및 정의 항목 설명 정의P-Tuning v2는 임베딩 레이어 대신 미세 조정 가능한 연속 벡터(prompt)를 삽입해 LLM의 추론 능력을 강화하는 방법목적대규모 모델의 파인튜닝 시 자원 사용 최소화 및 태스크 적응력 향상필요성전체 파라미터 튜닝 시 GPU 비용 증가 및 overfitting 발생 ..

Topic 2025.06.14

AWQ(Activation-aware Weight Quantization)

개요AWQ(Activation-aware Weight Quantization)는 대형 언어 모델의 추론 성능을 유지하면서도 4비트 양자화(INT4)를 실현하는 최신 양자화 기술이다. 기존 양자화 방식보다 더 적은 연산 자원으로 더 빠르고 정확한 추론이 가능하며, 특히 클라우드 및 로컬 환경에서의 효율적인 LLM 배포에 주목받고 있다.1. 개념 및 정의 항목 내용 정의AWQ는 'Activation-aware Weight Quantization'의 약자로, 활성값(activation)을 고려하여 가중치를 정밀하게 양자화하는 기술목적고성능 LLM의 정확도를 유지하면서도 저비용, 저전력 환경에 맞게 최적화필요성기존 8bit, 16bit 기반 추론 시스템의 성능/비용 한계를 극복하고, 4bit 정수 연산 기반 ..

Topic 2025.06.14

GPT-Q(Quantized Generative Pre-trained Transformer)

개요GPT-Q는 대형 언어 모델을 저용량으로 경량화하면서도 정확도 손실 없이 빠르게 추론할 수 있게 해주는 기술로, 특히 AI의 엣지 컴퓨팅 및 저비용 배포에 혁신적인 해법을 제시한다. 본 포스트에서는 GPT-Q의 정의, 동작 방식, 기술적 특징 및 주요 활용 사례를 중심으로 GPT-Q가 왜 중요한지 심층적으로 살펴본다.1. 개념 및 정의 항목 내용 정의GPT-Q는 'Quantized Generative Pre-trained Transformer'의 약자로, 사전 학습된 대규모 언어 모델(GPT)을 양자화(Quantization) 기법으로 압축한 모델을 의미함목적고성능 AI 모델을 저비용 환경에서도 빠르게 운영할 수 있도록 최적화필요성LLM의 연산 자원 소모와 배포 한계를 극복하고, 엣지 디바이스 및 ..

Topic 2025.06.14

IA³(Input-Aware Adapter)

개요IA³(Input-Aware Adapter)은 사전 학습된 언어 모델(PLM)을 다양한 태스크에 효율적으로 적응시키기 위한 경량화 파인튜닝 전략으로, 입력에 따라 동적으로 조정되는 어댑터 파라미터를 통해 적은 학습 비용으로 높은 성능을 실현합니다. 기존의 Adapter 기법보다 더욱 파라미터 효율적이며, 자연어 처리(NLP), 음성 인식 등 다양한 분야에서 확장성과 실용성을 인정받고 있습니다.1. 개념 및 정의IA³는 입력 특성(input features)에 따라 학습 가능한 게이트(gating) 벡터를 사용해 Transformer 계층의 각 선형 연산에 스케일 파라미터를 곱함으로써 미세 조정을 수행합니다.핵심 원리: 입력 인식 스케일 벡터로 출력값 조정업데이트 대상: 어댑터 파라미터만 학습, 기존 ..

Topic 2025.05.22

BitFit(Bias Term Fine-Tuning)

개요BitFit(Bias Term Fine-Tuning)은 대규모 사전학습 언어모델(PLM)을 효율적으로 파인튜닝하기 위해 도입된 경량화 튜닝 전략입니다. 전체 모델의 수많은 파라미터 중 오직 '바이어스(bias)' 항목만을 조정함으로써 최소한의 학습으로도 우수한 성능을 확보할 수 있는 것이 특징입니다. 메모리·계산 효율을 극대화하면서도 성능 손실 없이 다양한 다운스트림 태스크에 적용 가능해, LLM 시대의 실용적 튜닝 전략으로 각광받고 있습니다.1. 개념 및 정의BitFit은 Fine-Tuning 대상 파라미터를 'bias' 항목으로 제한하고, 그 외의 가중치(weight)는 모두 동결(frozen)한 상태로 학습을 수행하는 방법입니다.기본 전략: 전체 모델 파라미터 중 bias 항목만 업데이트설계 철..

Topic 2025.05.22

FlashAttention-2

개요FlashAttention-2는 트랜스포머 기반 대규모 언어 모델(LLM)의 핵심 연산인 어텐션(Attention)을 메모리 효율적이고 빠르게 처리하기 위한 차세대 알고리즘입니다. 기존 FlashAttention의 속도 및 GPU 효율성 문제를 개선하면서, 다양한 시퀀스 길이 및 배치 구조에 대한 일반성을 확보하고, 학습 및 추론 성능을 모두 향상시키는 혁신적 어텐션 기법으로 주목받고 있습니다.1. 개념 및 정의FlashAttention-2는 어텐션 연산에서 메모리 접근을 최소화하고, 고속 버퍼 레벨에서 정확한 softmax 연산을 수행하여 연산 효율성을 극대화한 알고리즘입니다.기반 모델: 트랜스포머(Transformer) 아키텍처핵심 전략: 'tiling + recomputation + GPU-fr..

Topic 2025.05.22
728x90
반응형