728x90
반응형

transformer확장 2

Sparse MoE (Mixture of Experts)

개요Sparse Mixture of Experts(Sparse MoE)는 대규모 딥러닝 모델에서 연산 효율성과 확장성을 동시에 확보하기 위한 아키텍처로, 여러 개의 전문가 네트워크(Experts) 중 일부만 선택적으로 활성화하여 훈련 및 추론을 수행하는 방식이다. 특히 수십억~수조 개의 파라미터를 가진 초대형 모델에서 전체 계산량을 제어하며 성능을 유지하거나 향상시킬 수 있는 전략으로 각광받고 있다.1. 개념 및 정의MoE는 다수의 전문가 모델 중 일부만 활성화하는 구조로, 각 입력 토큰 또는 샘플마다 최적의 전문가를 선택하여 처리한다. 이때 Sparse MoE는 활성화되는 전문가 수를 제한하여 연산량을 줄이고, 효율성을 확보하는 방식이다. 구성 요소 설명 Experts서로 다른 파라미터를 갖는 Fee..

Topic 2025.06.24

Perceiver IO

개요Perceiver IO는 다양한 형태의 입력 데이터를 효율적으로 처리하고 복잡한 출력까지 유연하게 생성할 수 있는 범용 딥러닝 아키텍처입니다. DeepMind가 2021년에 발표한 이 모델은 Transformer의 한계를 극복하고, 고차원 비정형 데이터(예: 이미지, 텍스트, 비디오, 포인트 클라우드 등)를 처리하는 데 강력한 성능을 보이며, AI 모델의 범용성과 확장성을 크게 향상시켰습니다.1. 개념 및 정의 항목 설명 비고 정의다양한 입력-출력 쌍을 유연하게 다루는 Transformer 기반 딥러닝 아키텍처Perceiver의 확장 버전목적입력 길이 제한 극복 및 다양한 입력 처리NLP 외 다양한 도메인 지원핵심 구조Cross-Attention 기반 입출력 디커플링 구조처리 효율성 강화Trans..

Topic 2025.06.08
728x90
반응형