728x90
반응형

diffusionmodel 2

Diffusion Transformers

개요Diffusion Transformers는 확률적 생성 모델인 Diffusion Model과 자연어 처리·시계열 예측 등에서 성능을 입증한 Transformer 구조를 결합한 하이브리드 생성 AI 아키텍처입니다. 기존의 GAN이나 VAE 기반 모델의 한계를 극복하며, 특히 이미지 생성, 텍스트-이미지 변환, 오디오 생성 등에서 높은 정밀도와 안정성을 제공하는 최신 기술로 각광받고 있습니다.1. 개념 및 정의Diffusion Model: 데이터를 점진적으로 노이즈화하고 역으로 원복하여 샘플을 생성하는 확률 기반 모델Transformer: 자기 주의(attention) 기반의 딥러닝 모델로, 시퀀스 정보를 효과적으로 처리함Diffusion Transformer: Transformer를 노이즈 제거 및 타..

Topic 2025.07.05

AudioLDM(Audio Latent Diffusion Model)

개요AudioLDM(Audio Latent Diffusion Model)은 텍스트로부터 고품질 오디오(예: 음악, 사운드 이펙트, 음성 등)를 생성하는 텍스트-투-오디오(text-to-audio, TTA) 모델입니다. Latent Diffusion 기반으로 효율성과 품질을 모두 확보하며, 텍스트 설명에 기반해 다양한 사운드를 생성할 수 있어 오디오 생성 AI의 대표 기술로 주목받고 있습니다.1. 개념 및 정의AudioLDM은 텍스트 임베딩을 조건으로 하여 오디오의 잠재 표현(latent representation)을 디퓨전 모델로 생성한 후, 이를 디코더를 통해 실제 파형(waveform)으로 복원하는 구조의 생성형 모델입니다.핵심 구조: Text Encoder + Latent Diffusion + Au..

Topic 2025.05.23
728x90
반응형