'ai모델최적화' 태그의 글 목록

GQA (Generalized Query Attention)

개요GQA(Generalized Query Attention)는 대규모 언어 모델(LLM, Large Language Model)의 효율성과 성능을 동시에 개선하기 위해 제안된 새로운 어텐션(attention) 메커니즘이다. 기존 Multi-Head Attention(MHA) 구조를 최적화하여, 메모리 사용량과 연산량을 줄이면서도 정확도와 추론 품질을 유지하거나 향상시키는 것을 목표로 한다.1. 개념 및 정의 항목 내용 설명 정의GQA (Generalized Query Attention)효율적 어텐션 계산을 위한 개선된 구조목적LLM의 성능·효율 동시 개선추론 속도 및 메모리 최적화필요성모델 규모 증가에 따른 자원 소모효율적 학습 및 추론 구조 필요GQA는 기존 MHA 구조에서 발생하는 비효율성을 개..

Topic 2025.10.07

Reformer (LSH Attention)

개요Reformer는 구글 브레인(Google Brain) 팀이 제안한 트랜스포머 구조의 확장으로, Locality-Sensitive Hashing(LSH)을 활용해 Self-Attention 연산의 복잡도를 O(N²)에서 O(N log N)으로 낮춘 모델이다. 본 포스트에서는 Reformer의 핵심 개념인 LSH Attention의 작동 원리, 구성 요소, 기술적 특징 및 주요 활용 사례를 중심으로 설명한다.1. 개념 및 정의 항목 설명 정의Reformer는 입력 시퀀스를 유사도 기준으로 해시 버킷에 나누고, 각 버킷 내에서만 Self-Attention을 수행하여 연산량을 줄인 Transformer 구조목적긴 시퀀스의 Self-Attention을 보다 효율적으로 처리필요성트랜스포머의 메모리 병목 및 ..

Topic 2025.06.14

Quantization-aware Training(QAT)

개요Quantization-aware Training(QAT, 양자화 인지 학습)은 딥러닝 모델의 경량화(모델 크기 축소 및 연산량 감소)를 위해 도입되는 기술 중 하나로, 학습 과정에서 양자화를 시뮬레이션하여 정확도 손실을 최소화합니다. 특히 엣지 디바이스나 모바일 환경에서 고속 추론과 낮은 전력 소비가 요구되는 분야에 적합하며, Post-Training Quantization(PTQ)보다 높은 정밀도를 유지할 수 있다는 장점이 있습니다.1. 개념 및 정의QAT는 훈련 단계부터 8-bit 또는 정수 연산을 염두에 두고, 양자화 시뮬레이션을 포함한 연산을 통해 모델을 학습시키는 방식입니다. 이는 학습 중 float 연산과 양자화된 정수 연산 사이의 오차를 고려하여 weight와 activation을 함께..

Topic 2025.04.08

Memory Replay Buffer(메모리 리플레이 버퍼)

개요Memory Replay Buffer(메모리 리플레이 버퍼)는 강화 학습(Reinforcement Learning, RL)에서 에이전트가 수집한 과거 경험을 저장하고, 이를 반복적으로 학습에 활용하기 위해 사용하는 핵심 구조입니다. 비효율적인 학습을 방지하고, 데이터의 다양성을 확보하여 더 안정적이고 효율적인 정책 학습을 가능하게 만듭니다.1. 개념 및 정의메모리 리플레이 버퍼는 에이전트가 환경과 상호작용하며 얻은 상태(state), 행동(action), 보상(reward), 다음 상태(next state)의 튜플을 저장하는 버퍼입니다. 이 저장된 경험을 샘플링하여, 모델이 다양한 상황을 다시 학습하게 함으로써 데이터 효율성 향상, 표본 상관관계 감소, 모델의 안정성 증가라는 효과를 기대할 수 있습니..

Topic 2025.04.08

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

ITPE * JackerLab

ai모델최적화 4

티스토리툴바