728x90
반응형

로컬llm 2

AWQ(Activation-aware Weight Quantization)

개요AWQ(Activation-aware Weight Quantization)는 대형 언어 모델의 추론 성능을 유지하면서도 4비트 양자화(INT4)를 실현하는 최신 양자화 기술이다. 기존 양자화 방식보다 더 적은 연산 자원으로 더 빠르고 정확한 추론이 가능하며, 특히 클라우드 및 로컬 환경에서의 효율적인 LLM 배포에 주목받고 있다.1. 개념 및 정의 항목 내용 정의AWQ는 'Activation-aware Weight Quantization'의 약자로, 활성값(activation)을 고려하여 가중치를 정밀하게 양자화하는 기술목적고성능 LLM의 정확도를 유지하면서도 저비용, 저전력 환경에 맞게 최적화필요성기존 8bit, 16bit 기반 추론 시스템의 성능/비용 한계를 극복하고, 4bit 정수 연산 기반 ..

Topic 2025.06.14

GPT-Q(Quantized Generative Pre-trained Transformer)

개요GPT-Q는 대형 언어 모델을 저용량으로 경량화하면서도 정확도 손실 없이 빠르게 추론할 수 있게 해주는 기술로, 특히 AI의 엣지 컴퓨팅 및 저비용 배포에 혁신적인 해법을 제시한다. 본 포스트에서는 GPT-Q의 정의, 동작 방식, 기술적 특징 및 주요 활용 사례를 중심으로 GPT-Q가 왜 중요한지 심층적으로 살펴본다.1. 개념 및 정의 항목 내용 정의GPT-Q는 'Quantized Generative Pre-trained Transformer'의 약자로, 사전 학습된 대규모 언어 모델(GPT)을 양자화(Quantization) 기법으로 압축한 모델을 의미함목적고성능 AI 모델을 저비용 환경에서도 빠르게 운영할 수 있도록 최적화필요성LLM의 연산 자원 소모와 배포 한계를 극복하고, 엣지 디바이스 및 ..

Topic 2025.06.14
728x90
반응형