728x90
반응형

llm경량화 3

Quantized Mixture of Experts (Q-MoE)

개요Quantized Mixture of Experts(Q-MoE)는 대규모 Mixture of Experts(MoE) 아키텍처를 양자화(quantization) 기술과 결합하여, 추론 속도 및 메모리 효율을 극대화하면서도 고성능을 유지하는 차세대 AI 모델 최적화 기법입니다. Q-MoE는 특히 파라미터가 수십~수백억 개에 달하는 초대형 LLM 및 분산 추론 환경에서 효율성과 정확도를 동시에 확보하기 위한 해법으로 주목받고 있습니다.1. 개념 및 정의항목설명비고정의MoE 구조의 각 전문가(expert)를 양자화하여 경량화하는 추론 최적화 기법MoE + Post/Training-aware Quantization목적연산량 감소, 메모리 사용 절감, 속도 향상Edge 및 Cloud Inference 모두 적용..

Topic 2025.08.19

LoRA-INT8

개요LoRA-INT8은 파라미터 효율 미세 조정 기술인 LoRA(Low-Rank Adaptation)와 INT8 정수 양자화를 결합한 LLM(대규모 언어 모델) 경량화 및 튜닝 기법이다. 적은 연산 자원으로도 기존 성능을 유지하면서 모델을 학습 또는 미세 조정할 수 있어, 비용 효율적 AI 서비스 구축에 매우 적합하다.1. 개념 및 정의 항목 설명 정의LLM의 고정된 파라미터에 LoRA를 적용하고, 전체 모델 가중치를 INT8로 양자화하여 미세 조정하는 방법목적메모리 사용량과 연산 비용을 최소화하면서도 성능을 유지하는 튜닝 방식 제공필요성GPU 메모리 한계, 클라우드 비용, 배포 효율성 등에 대한 실용적 대응 요구2. 특징특징설명기존 방법 대비 차별점저메모리 학습전체 파라미터가 아닌 LoRA 모듈만 학..

Topic 2025.07.18

SparseGPT One-Shot Pruning

개요SparseGPT One-Shot Pruning은 사전 학습된 대형 언어 모델(LLM)을 희소화(sparsification)하여 연산량과 메모리 요구량을 줄이기 위한 혁신적인 기법입니다. 이 방법은 단 한 번의 forward pass만으로 전체 모델의 가중치를 효율적으로 제거하는 특징을 가지며, 복잡한 재학습(fine-tuning) 없이도 높은 정확도를 유지합니다.1. 개념 및 정의 항목 내용 정의One-shot 방식으로 파라미터를 희소화하는 LLM 전처리 기법목적모델 추론 속도 향상 및 메모리 사용량 감소방식단일 forward pass 기반 가중치 중요도 평가 후 pruning이 방식은 특히 학습 자원이 부족한 환경에서도 기존 GPT 모델을 경량화하여 빠르게 배포할 수 있게 합니다.2. 특징특징설..

Topic 2025.05.26
728x90
반응형