개요AWQ(Activation-aware Weight Quantization)는 대형 언어 모델의 추론 성능을 유지하면서도 4비트 양자화(INT4)를 실현하는 최신 양자화 기술이다. 기존 양자화 방식보다 더 적은 연산 자원으로 더 빠르고 정확한 추론이 가능하며, 특히 클라우드 및 로컬 환경에서의 효율적인 LLM 배포에 주목받고 있다.1. 개념 및 정의 항목 내용 정의AWQ는 'Activation-aware Weight Quantization'의 약자로, 활성값(activation)을 고려하여 가중치를 정밀하게 양자화하는 기술목적고성능 LLM의 정확도를 유지하면서도 저비용, 저전력 환경에 맞게 최적화필요성기존 8bit, 16bit 기반 추론 시스템의 성능/비용 한계를 극복하고, 4bit 정수 연산 기반 ..