개요Sparse Mixture of Experts(Sparse MoE)는 대규모 딥러닝 모델에서 연산 효율성과 확장성을 동시에 확보하기 위한 아키텍처로, 여러 개의 전문가 네트워크(Experts) 중 일부만 선택적으로 활성화하여 훈련 및 추론을 수행하는 방식이다. 특히 수십억~수조 개의 파라미터를 가진 초대형 모델에서 전체 계산량을 제어하며 성능을 유지하거나 향상시킬 수 있는 전략으로 각광받고 있다.1. 개념 및 정의MoE는 다수의 전문가 모델 중 일부만 활성화하는 구조로, 각 입력 토큰 또는 샘플마다 최적의 전문가를 선택하여 처리한다. 이때 Sparse MoE는 활성화되는 전문가 수를 제한하여 연산량을 줄이고, 효율성을 확보하는 방식이다. 구성 요소 설명 Experts서로 다른 파라미터를 갖는 Fee..