728x90
반응형

ai아키텍처 3

Diffusion Transformers

개요Diffusion Transformers는 확률적 생성 모델인 Diffusion Model과 자연어 처리·시계열 예측 등에서 성능을 입증한 Transformer 구조를 결합한 하이브리드 생성 AI 아키텍처입니다. 기존의 GAN이나 VAE 기반 모델의 한계를 극복하며, 특히 이미지 생성, 텍스트-이미지 변환, 오디오 생성 등에서 높은 정밀도와 안정성을 제공하는 최신 기술로 각광받고 있습니다.1. 개념 및 정의Diffusion Model: 데이터를 점진적으로 노이즈화하고 역으로 원복하여 샘플을 생성하는 확률 기반 모델Transformer: 자기 주의(attention) 기반의 딥러닝 모델로, 시퀀스 정보를 효과적으로 처리함Diffusion Transformer: Transformer를 노이즈 제거 및 타..

Topic 2025.07.05

Sparse MoE (Mixture of Experts)

개요Sparse Mixture of Experts(Sparse MoE)는 대규모 딥러닝 모델에서 연산 효율성과 확장성을 동시에 확보하기 위한 아키텍처로, 여러 개의 전문가 네트워크(Experts) 중 일부만 선택적으로 활성화하여 훈련 및 추론을 수행하는 방식이다. 특히 수십억~수조 개의 파라미터를 가진 초대형 모델에서 전체 계산량을 제어하며 성능을 유지하거나 향상시킬 수 있는 전략으로 각광받고 있다.1. 개념 및 정의MoE는 다수의 전문가 모델 중 일부만 활성화하는 구조로, 각 입력 토큰 또는 샘플마다 최적의 전문가를 선택하여 처리한다. 이때 Sparse MoE는 활성화되는 전문가 수를 제한하여 연산량을 줄이고, 효율성을 확보하는 방식이다. 구성 요소 설명 Experts서로 다른 파라미터를 갖는 Fee..

Topic 2025.06.24

Switch Transformer

개요Switch Transformer는 Google Brain이 발표한 Sparse Mixture-of-Experts(MoE) 기반의 초대형 트랜스포머 모델로, 기존 Dense Transformer 구조의 연산 병목 문제를 해결하고 학습 효율성을 극대화하기 위해 설계되었다. 선택적으로 활성화되는 전문가(Experts) 레이어 구조와 Soft Routing을 사용해 연산량은 줄이고 성능은 유지하거나 개선하는 스케일 최적화 모델이다.1. 개념 및 정의Switch Transformer는 Transformer의 Feedforward 레이어를 수천 개의 전문가(Expert) 중 일부만 활성화하는 방식으로 대체한다. MoE 구조 중에서도 가장 단순하면서 효과적인 구조인 Switch Routing을 통해, 각 입력 ..

Topic 2025.06.24
728x90
반응형