개요Sparsely-Gated MoE(Mixture of Experts)는 대형 신경망 모델에서 전체 네트워크가 아닌 일부 전문가(Experts)만 선택적으로 활성화함으로써 모델 용량은 늘리되 계산 비용은 일정하게 유지하는 구조입니다. 이 방식은 Google Brain의 논문 “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”에서 제안되었으며, GPT, T5, Switch Transformer 등 현대 대형 언어 모델의 확장성 향상에 널리 사용되고 있습니다.1. 개념 및 정의Mixture of Experts(MoE)는 여러 개의 전문가 네트워크(Expert)를 구성하고, Gating Network를 통해 입력마..