개요
DiT(Diffusion Transformer)는 이미지 생성 디퓨전 모델에서 기존 U-Net 구조를 Transformer로 대체하여 성능과 확장성을 개선한 새로운 구조입니다. 특히, Transformer의 표현력과 스케일업 가능성을 활용해 고해상도 이미지 생성, 안정적 학습 등에서 차별화된 성능을 보여주며, DALL·E 3 및 Stable Diffusion 3와 같은 최신 생성형 AI 시스템에 영향을 주고 있습니다.
1. 개념 및 정의
항목 | 내용 |
정의 | 디퓨전 노이즈 제거 네트워크에 Transformer를 적용한 모델 |
목표 | 기존 CNN 기반 U-Net 대비 더 강력한 표현력 확보 |
특징 | Latent 디퓨전 과정에서 Transformer가 노이즈 예측을 수행 |
DiT는 Diffusion 과정에서 일정 단계(timestep)의 noisy latent representation을 받아, 이를 Transformer 기반으로 복원해가는 구조를 갖습니다.
2. 특징
특징 | 설명 | 비교 |
U-Net 대체 | 기존 U-Net 구조 대신 Vision Transformer 기반 아키텍처 사용 | 더 깊고 폭넓은 receptive field 제공 |
Self-attention 기반 | 전역 컨텍스트 기반 정보 처리 | CNN 기반 구조 대비 더 복합적 의존성 처리 가능 |
고해상도 대응 | patch embedding 확장 및 transformer block scaling | Stable Diffusion 3 등 고해상도에 적합 |
타임스텝 조건화 | 디퓨전 단계별 timestep encoding 포함 | 확률적 복원 안정성 향상 |
특히 DiT는 CLIP-style Transformer 구조를 활용하면서, pretrained 모델의 이점을 극대화합니다.
3. 구성 요소
구성 요소 | 설명 | 역할 |
Patch Embedding | 이미지를 패치로 분해 후 embedding 처리 | Transformer 입력 준비 |
Positional Embedding | 시간(timestep) 정보와 함께 위치 정보 삽입 | 위치 정보 학습을 통해 구조 보전 |
Transformer Blocks | Self-Attention + MLP 구조 반복 | 복잡한 이미지 디퓨전 구조 학습 |
Final Projection | 출력 임베딩을 이미지 차원으로 복원 | 노이즈 제거 결과 생성 |
이러한 구성은 DiT가 고해상도 이미지나 복잡한 구조를 보다 효과적으로 생성할 수 있게 합니다.
4. 기술 요소
기술 요소 | 설명 | 관련 기술 |
Denoising Diffusion | 확률적 노이즈 제거 기반 이미지 생성 방식 | DDPM, DDIM 등과 동일한 프레임워크 사용 |
Latent Diffusion | 낮은 해상도 잠재 공간에서 생성 후 업스케일 | Stable Diffusion 스타일 구조 |
Timestep Conditioning | Transformer에 timestep 정보를 명시적 전달 | 시간 축의 안정적인 예측 지원 |
Vision Transformer (ViT) | 이미지 패치를 시퀀스로 처리하는 구조 | 원래는 분류용 → 생성용으로 확장됨 |
DiT는 특히 pretrained ViT 계열을 이용해 기존 모델보다 빠르고 안정적인 학습이 가능합니다.
5. 장점 및 이점
장점 | 설명 | 효과 |
확장성 | 더 깊고 큰 모델 설계 가능 | 대형 이미지 모델에서 성능 개선 |
고해상도 대응 | fine patch granularity 및 계층 확장 | 사진 품질 이미지 생성 가능 |
Self-attention 활용 | 전역 의존성 표현력 강화 | 복잡한 이미지 구조 학습 능력 향상 |
학습 안정성 | ViT 기반 pretrained weights 사용 가능 | 초기 학습 속도 및 성능 향상 |
DiT는 특히 기존 Diffusion 구조보다 더 나은 FID/IS 점수를 기록하며 연구자 및 기업에서 주목받고 있습니다.
6. 활용 사례 및 고려사항
활용 사례 | 설명 | 고려사항 |
고해상도 이미지 생성 | Stable Diffusion, DALL·E 스타일의 텍스트-이미지 변환 | ViT pretraining 여부 확인 필요 |
영상 생성 | 시간 조건 추가 시 비디오 생성 확장 가능 | temporal coherence 전략 필요 |
의료영상 복원 | 저해상도 CT/MRI 복원 시 응용 가능 | 안전성 및 정밀도 기준 요구 |
프롬프트 기반 생성 | CLIP 등과 결합해 텍스트 조건 생성 가능 | cross-attention 구조 연계 필요 |
도입 시 사전 학습된 Vision Transformer 백본 모델과 timestep 조절 전략이 중요합니다.
7. 결론
DiT(Diffusion Transformer)는 디퓨전 기반 이미지 생성의 새로운 패러다임을 제시하며, Transformer 구조를 기반으로 더욱 정교하고 확장 가능한 이미지 생성을 가능하게 합니다. 특히 고해상도 생성, fine-tuning 효율, 표현력 측면에서 큰 강점을 가지며 향후 이미지 생성형 AI의 주요 기술 축이 될 것으로 기대됩니다.
'Topic' 카테고리의 다른 글
PaLM-E (Pathways Language Model - Embodied) (0) | 2025.05.26 |
---|---|
SparseGPT One-Shot Pruning (1) | 2025.05.26 |
Mamba (1) | 2025.05.26 |
State-Space Model(상태공간 모델) (0) | 2025.05.26 |
Direct Preference Optimization (DPO) (1) | 2025.05.26 |