728x90
반응형

switchtransformer 2

Switch Transformer

개요Switch Transformer는 Google Brain이 발표한 Sparse Mixture-of-Experts(MoE) 기반의 초대형 트랜스포머 모델로, 기존 Dense Transformer 구조의 연산 병목 문제를 해결하고 학습 효율성을 극대화하기 위해 설계되었다. 선택적으로 활성화되는 전문가(Experts) 레이어 구조와 Soft Routing을 사용해 연산량은 줄이고 성능은 유지하거나 개선하는 스케일 최적화 모델이다.1. 개념 및 정의Switch Transformer는 Transformer의 Feedforward 레이어를 수천 개의 전문가(Expert) 중 일부만 활성화하는 방식으로 대체한다. MoE 구조 중에서도 가장 단순하면서 효과적인 구조인 Switch Routing을 통해, 각 입력 ..

Topic 2025.06.24

Sparsely-Gated MoE (Mixture of Experts)

개요Sparsely-Gated MoE(Mixture of Experts)는 대형 신경망 모델에서 전체 네트워크가 아닌 일부 전문가(Experts)만 선택적으로 활성화함으로써 모델 용량은 늘리되 계산 비용은 일정하게 유지하는 구조입니다. 이 방식은 Google Brain의 논문 “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”에서 제안되었으며, GPT, T5, Switch Transformer 등 현대 대형 언어 모델의 확장성 향상에 널리 사용되고 있습니다.1. 개념 및 정의Mixture of Experts(MoE)는 여러 개의 전문가 네트워크(Expert)를 구성하고, Gating Network를 통해 입력마..

Topic 2025.05.08
728x90
반응형