728x90
반응형

llm확장성 2

Performer (FAVOR+)

개요Performer는 기존 Transformer의 연산 병목을 해결하기 위해 고안된 선형 복잡도 어텐션 알고리즘이다. 특히 FAVOR+ (Fast Attention Via Positive Orthogonal Random features)는 Self-Attention의 계산량을 O(N²)에서 O(N)으로 줄여 대규모 입력 처리에서 속도와 메모리 사용을 획기적으로 개선한다. 본 글에서는 Performer의 핵심 개념, FAVOR+의 수학적 원리, 기술적 장점과 다양한 활용 사례를 상세히 소개한다.1. 개념 및 정의 항목 설명 정의Performer는 Self-Attention을 근사하는 선형 어텐션 기반 트랜스포머 구조로, FAVOR+ 기법을 핵심으로 사용목적트랜스포머 구조의 연산량을 선형 수준으로 낮춰 ..

Topic 2025.06.14

Sparsely-Gated MoE (Mixture of Experts)

개요Sparsely-Gated MoE(Mixture of Experts)는 대형 신경망 모델에서 전체 네트워크가 아닌 일부 전문가(Experts)만 선택적으로 활성화함으로써 모델 용량은 늘리되 계산 비용은 일정하게 유지하는 구조입니다. 이 방식은 Google Brain의 논문 “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”에서 제안되었으며, GPT, T5, Switch Transformer 등 현대 대형 언어 모델의 확장성 향상에 널리 사용되고 있습니다.1. 개념 및 정의Mixture of Experts(MoE)는 여러 개의 전문가 네트워크(Expert)를 구성하고, Gating Network를 통해 입력마..

Topic 2025.05.08
728x90
반응형