'ai모델경량화' 태그의 글 목록

728x90

ai모델경량화 3

Quantized Mixture of Experts (Q-MoE)

개요Quantized Mixture of Experts(Q-MoE)는 대규모 Mixture of Experts(MoE) 아키텍처를 양자화(quantization) 기술과 결합하여, 추론 속도 및 메모리 효율을 극대화하면서도 고성능을 유지하는 차세대 AI 모델 최적화 기법입니다. Q-MoE는 특히 파라미터가 수십~수백억 개에 달하는 초대형 LLM 및 분산 추론 환경에서 효율성과 정확도를 동시에 확보하기 위한 해법으로 주목받고 있습니다.1. 개념 및 정의항목설명비고정의MoE 구조의 각 전문가(expert)를 양자화하여 경량화하는 추론 최적화 기법MoE + Post/Training-aware Quantization목적연산량 감소, 메모리 사용 절감, 속도 향상Edge 및 Cloud Inference 모두 적용..

Topic 2025.08.19

AWQ(Activation-aware Weight Quantization)

개요AWQ(Activation-aware Weight Quantization)는 대형 언어 모델의 추론 성능을 유지하면서도 4비트 양자화(INT4)를 실현하는 최신 양자화 기술이다. 기존 양자화 방식보다 더 적은 연산 자원으로 더 빠르고 정확한 추론이 가능하며, 특히 클라우드 및 로컬 환경에서의 효율적인 LLM 배포에 주목받고 있다.1. 개념 및 정의 항목 내용 정의AWQ는 'Activation-aware Weight Quantization'의 약자로, 활성값(activation)을 고려하여 가중치를 정밀하게 양자화하는 기술목적고성능 LLM의 정확도를 유지하면서도 저비용, 저전력 환경에 맞게 최적화필요성기존 8bit, 16bit 기반 추론 시스템의 성능/비용 한계를 극복하고, 4bit 정수 연산 기반 ..

Topic 2025.06.14

GPT-Q(Quantized Generative Pre-trained Transformer)

개요GPT-Q는 대형 언어 모델을 저용량으로 경량화하면서도 정확도 손실 없이 빠르게 추론할 수 있게 해주는 기술로, 특히 AI의 엣지 컴퓨팅 및 저비용 배포에 혁신적인 해법을 제시한다. 본 포스트에서는 GPT-Q의 정의, 동작 방식, 기술적 특징 및 주요 활용 사례를 중심으로 GPT-Q가 왜 중요한지 심층적으로 살펴본다.1. 개념 및 정의 항목 내용 정의GPT-Q는 'Quantized Generative Pre-trained Transformer'의 약자로, 사전 학습된 대규모 언어 모델(GPT)을 양자화(Quantization) 기법으로 압축한 모델을 의미함목적고성능 AI 모델을 저비용 환경에서도 빠르게 운영할 수 있도록 최적화필요성LLM의 연산 자원 소모와 배포 한계를 극복하고, 엣지 디바이스 및 ..

Topic 2025.06.14

JackerLab

무료 온라인 플랫폼

둘러보기 →

250x250

ITPE * JackerLab

ITPE 관련 정보를 정리합니다.

Today :
Yesterday :

06-03 13:19

Kubernetes, 클라우드네이티브, 사이버보안, IOT, AI보안, 마이크로서비스, GDPR, 생성형AI, 디지털전환, 머신러닝, MLops, sre, gitops, 딥러닝, 클라우드보안, LLM, 클라우드 보안, DevOps, ci/cd, DevSecOps,

728x90

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

ai모델경량화 3

티스토리툴바