728x90
반응형

sparsemoe 2

Sparse MoE (Mixture of Experts)

개요Sparse Mixture of Experts(Sparse MoE)는 대규모 딥러닝 모델에서 연산 효율성과 확장성을 동시에 확보하기 위한 아키텍처로, 여러 개의 전문가 네트워크(Experts) 중 일부만 선택적으로 활성화하여 훈련 및 추론을 수행하는 방식이다. 특히 수십억~수조 개의 파라미터를 가진 초대형 모델에서 전체 계산량을 제어하며 성능을 유지하거나 향상시킬 수 있는 전략으로 각광받고 있다.1. 개념 및 정의MoE는 다수의 전문가 모델 중 일부만 활성화하는 구조로, 각 입력 토큰 또는 샘플마다 최적의 전문가를 선택하여 처리한다. 이때 Sparse MoE는 활성화되는 전문가 수를 제한하여 연산량을 줄이고, 효율성을 확보하는 방식이다. 구성 요소 설명 Experts서로 다른 파라미터를 갖는 Fee..

Topic 2025.06.24

Switch Transformer

개요Switch Transformer는 Google Brain이 발표한 Sparse Mixture-of-Experts(MoE) 기반의 초대형 트랜스포머 모델로, 기존 Dense Transformer 구조의 연산 병목 문제를 해결하고 학습 효율성을 극대화하기 위해 설계되었다. 선택적으로 활성화되는 전문가(Experts) 레이어 구조와 Soft Routing을 사용해 연산량은 줄이고 성능은 유지하거나 개선하는 스케일 최적화 모델이다.1. 개념 및 정의Switch Transformer는 Transformer의 Feedforward 레이어를 수천 개의 전문가(Expert) 중 일부만 활성화하는 방식으로 대체한다. MoE 구조 중에서도 가장 단순하면서 효과적인 구조인 Switch Routing을 통해, 각 입력 ..

Topic 2025.06.24
728x90
반응형