728x90
반응형

topkrouting 2

Sparse MoE (Mixture of Experts)

개요Sparse Mixture of Experts(Sparse MoE)는 대규모 딥러닝 모델에서 연산 효율성과 확장성을 동시에 확보하기 위한 아키텍처로, 여러 개의 전문가 네트워크(Experts) 중 일부만 선택적으로 활성화하여 훈련 및 추론을 수행하는 방식이다. 특히 수십억~수조 개의 파라미터를 가진 초대형 모델에서 전체 계산량을 제어하며 성능을 유지하거나 향상시킬 수 있는 전략으로 각광받고 있다.1. 개념 및 정의MoE는 다수의 전문가 모델 중 일부만 활성화하는 구조로, 각 입력 토큰 또는 샘플마다 최적의 전문가를 선택하여 처리한다. 이때 Sparse MoE는 활성화되는 전문가 수를 제한하여 연산량을 줄이고, 효율성을 확보하는 방식이다. 구성 요소 설명 Experts서로 다른 파라미터를 갖는 Fee..

Topic 2025.06.24

Sparsely-Gated MoE (Mixture of Experts)

개요Sparsely-Gated MoE(Mixture of Experts)는 대형 신경망 모델에서 전체 네트워크가 아닌 일부 전문가(Experts)만 선택적으로 활성화함으로써 모델 용량은 늘리되 계산 비용은 일정하게 유지하는 구조입니다. 이 방식은 Google Brain의 논문 “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”에서 제안되었으며, GPT, T5, Switch Transformer 등 현대 대형 언어 모델의 확장성 향상에 널리 사용되고 있습니다.1. 개념 및 정의Mixture of Experts(MoE)는 여러 개의 전문가 네트워크(Expert)를 구성하고, Gating Network를 통해 입력마..

Topic 2025.05.08
728x90
반응형