728x90
반응형

MOE 2

Sparsely-Gated MoE (Mixture of Experts)

개요Sparsely-Gated MoE(Mixture of Experts)는 대형 신경망 모델에서 전체 네트워크가 아닌 일부 전문가(Experts)만 선택적으로 활성화함으로써 모델 용량은 늘리되 계산 비용은 일정하게 유지하는 구조입니다. 이 방식은 Google Brain의 논문 “Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”에서 제안되었으며, GPT, T5, Switch Transformer 등 현대 대형 언어 모델의 확장성 향상에 널리 사용되고 있습니다.1. 개념 및 정의Mixture of Experts(MoE)는 여러 개의 전문가 네트워크(Expert)를 구성하고, Gating Network를 통해 입력마..

Topic 2025.05.08

Mixture-of-Experts(MoE)

개요Mixture-of-Experts(MoE)는 신경망 모델 내 여러 개의 서브 네트워크(전문가)를 구성하고, 입력마다 이 중 일부 전문가만 활성화하여 처리하는 방식의 스파스 활성화(Sparse Activation) 기반 딥러닝 아키텍처입니다. 이를 통해 모델 크기를 기하급수적으로 확장하면서도 학습과 추론 시 연산량은 제한적으로 유지할 수 있어, 최근 거대 언어 모델(LLM)의 핵심 기술로 각광받고 있습니다.1. 개념 및 정의Mixture-of-Experts는 입력마다 선택적으로 전문가 모듈을 활성화하는 구조로, 모델이 전체 네트워크를 사용하는 것이 아닌, 일부 전문가만을 선택적으로 실행하는 방식입니다.전문가(Expert): 독립적인 Feed-Forward Network(FFN)게이트(Gating Net..

Topic 2025.05.07
728x90
반응형