DiT (Diffusion Transformer)

Topic

DiT (Diffusion Transformer)

JackerLab 2025. 5. 26. 08:21

728x90

개요

DiT(Diffusion Transformer)는 이미지 생성 디퓨전 모델에서 기존 U-Net 구조를 Transformer로 대체하여 성능과 확장성을 개선한 새로운 구조입니다. 특히, Transformer의 표현력과 스케일업 가능성을 활용해 고해상도 이미지 생성, 안정적 학습 등에서 차별화된 성능을 보여주며, DALL·E 3 및 Stable Diffusion 3와 같은 최신 생성형 AI 시스템에 영향을 주고 있습니다.

1. 개념 및 정의

항목	내용
정의	디퓨전 노이즈 제거 네트워크에 Transformer를 적용한 모델
목표	기존 CNN 기반 U-Net 대비 더 강력한 표현력 확보
특징	Latent 디퓨전 과정에서 Transformer가 노이즈 예측을 수행

DiT는 Diffusion 과정에서 일정 단계(timestep)의 noisy latent representation을 받아, 이를 Transformer 기반으로 복원해가는 구조를 갖습니다.

2. 특징

특징	설명	비교
U-Net 대체	기존 U-Net 구조 대신 Vision Transformer 기반 아키텍처 사용	더 깊고 폭넓은 receptive field 제공
Self-attention 기반	전역 컨텍스트 기반 정보 처리	CNN 기반 구조 대비 더 복합적 의존성 처리 가능
고해상도 대응	patch embedding 확장 및 transformer block scaling	Stable Diffusion 3 등 고해상도에 적합
타임스텝 조건화	디퓨전 단계별 timestep encoding 포함	확률적 복원 안정성 향상

특히 DiT는 CLIP-style Transformer 구조를 활용하면서, pretrained 모델의 이점을 극대화합니다.

3. 구성 요소

구성 요소	설명	역할
Patch Embedding	이미지를 패치로 분해 후 embedding 처리	Transformer 입력 준비
Positional Embedding	시간(timestep) 정보와 함께 위치 정보 삽입	위치 정보 학습을 통해 구조 보전
Transformer Blocks	Self-Attention + MLP 구조 반복	복잡한 이미지 디퓨전 구조 학습
Final Projection	출력 임베딩을 이미지 차원으로 복원	노이즈 제거 결과 생성

이러한 구성은 DiT가 고해상도 이미지나 복잡한 구조를 보다 효과적으로 생성할 수 있게 합니다.

4. 기술 요소

기술 요소	설명	관련 기술
Denoising Diffusion	확률적 노이즈 제거 기반 이미지 생성 방식	DDPM, DDIM 등과 동일한 프레임워크 사용
Latent Diffusion	낮은 해상도 잠재 공간에서 생성 후 업스케일	Stable Diffusion 스타일 구조
Timestep Conditioning	Transformer에 timestep 정보를 명시적 전달	시간 축의 안정적인 예측 지원
Vision Transformer (ViT)	이미지 패치를 시퀀스로 처리하는 구조	원래는 분류용 → 생성용으로 확장됨

DiT는 특히 pretrained ViT 계열을 이용해 기존 모델보다 빠르고 안정적인 학습이 가능합니다.

5. 장점 및 이점

장점	설명	효과
확장성	더 깊고 큰 모델 설계 가능	대형 이미지 모델에서 성능 개선
고해상도 대응	fine patch granularity 및 계층 확장	사진 품질 이미지 생성 가능
Self-attention 활용	전역 의존성 표현력 강화	복잡한 이미지 구조 학습 능력 향상
학습 안정성	ViT 기반 pretrained weights 사용 가능	초기 학습 속도 및 성능 향상

DiT는 특히 기존 Diffusion 구조보다 더 나은 FID/IS 점수를 기록하며 연구자 및 기업에서 주목받고 있습니다.

6. 활용 사례 및 고려사항

활용 사례	설명	고려사항
고해상도 이미지 생성	Stable Diffusion, DALL·E 스타일의 텍스트-이미지 변환	ViT pretraining 여부 확인 필요
영상 생성	시간 조건 추가 시 비디오 생성 확장 가능	temporal coherence 전략 필요
의료영상 복원	저해상도 CT/MRI 복원 시 응용 가능	안전성 및 정밀도 기준 요구
프롬프트 기반 생성	CLIP 등과 결합해 텍스트 조건 생성 가능	cross-attention 구조 연계 필요

도입 시 사전 학습된 Vision Transformer 백본 모델과 timestep 조절 전략이 중요합니다.

7. 결론

DiT(Diffusion Transformer)는 디퓨전 기반 이미지 생성의 새로운 패러다임을 제시하며, Transformer 구조를 기반으로 더욱 정교하고 확장 가능한 이미지 생성을 가능하게 합니다. 특히 고해상도 생성, fine-tuning 효율, 표현력 측면에서 큰 강점을 가지며 향후 이미지 생성형 AI의 주요 기술 축이 될 것으로 기대됩니다.

728x90

'Topic' 카테고리의 다른 글

Embodied LLM (Embodied Large Language Model) (0)	2025.05.26
PaLM-E (Pathways Language Model - Embodied) (1)	2025.05.26
SparseGPT One-Shot Pruning (2)	2025.05.26
Mamba (1)	2025.05.26
State-Space Model(상태공간 모델) (0)	2025.05.26

현재글DiT (Diffusion Transformer)

250x250

ITPE * JackerLab

ITPE 관련 정보를 정리합니다.

Today :
Yesterday :

03-05 06:08

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

ITPE * JackerLab