개요Switch Transformer는 Google Brain이 발표한 Sparse Mixture-of-Experts(MoE) 기반의 초대형 트랜스포머 모델로, 기존 Dense Transformer 구조의 연산 병목 문제를 해결하고 학습 효율성을 극대화하기 위해 설계되었다. 선택적으로 활성화되는 전문가(Experts) 레이어 구조와 Soft Routing을 사용해 연산량은 줄이고 성능은 유지하거나 개선하는 스케일 최적화 모델이다.1. 개념 및 정의Switch Transformer는 Transformer의 Feedforward 레이어를 수천 개의 전문가(Expert) 중 일부만 활성화하는 방식으로 대체한다. MoE 구조 중에서도 가장 단순하면서 효과적인 구조인 Switch Routing을 통해, 각 입력 ..