728x90
반응형

딥러닝비전 3

DiT (Diffusion Transformer)

개요DiT(Diffusion Transformer)는 이미지 생성을 위한 딥러닝 아키텍처로, 기존 CNN 기반의 디퓨전 모델 대신 트랜스포머(Transformer) 구조를 사용하여 고해상도 이미지를 효율적으로 생성합니다. OpenAI의 DALLE이나 Stable Diffusion과 유사한 방식의 생성 메커니즘에 Transformer의 장점을 결합한 새로운 접근입니다.1. 개념 및 정의 항목 내용 정의트랜스포머 아키텍처를 디퓨전 모델의 노이즈 예측에 활용한 이미지 생성 모델목적고성능 이미지 생성을 위한 트랜스포머 기반 구조 설계필요성CNN의 표현력 한계를 넘어 더 정교한 패턴 학습과 확장성 확보를 위함2. 주요 특징특징설명효과트랜스포머 구조비전 트랜스포머(ViT) 기반 아키텍처장거리 의존 관계 학습에 유..

Topic 2026.02.06

Point Transformer

개요Point Transformer는 트랜스포머의 강력한 표현 학습 능력을 3D 포인트 클라우드 처리에 적용한 모델로, 각 포인트 간의 공간 관계를 동적으로 학습하여 정밀한 분류, 분할, 위치 추정 등을 가능하게 한다. 이 모델은 기존의 PointNet++가 갖는 지역 처리 한계를 극복하고, Attention 메커니즘을 통해 유연하고 정밀한 특징 추출을 실현한다.1. 개념 및 정의항목설명 정의Point Transformer는 3D 포인트 클라우드의 지역 구조를 Self-Attention 기반으로 동적으로 학습하는 트랜스포머 아키텍처목적국소적이고 계층적인 공간 정보를 유연하게 통합하여 정확한 3D 인식 수행필요성고정된 필터 기반 처리(PN++)의 한계를 극복하고, 위치 민감한 표현 학습 필요2. 특징특징설..

Topic 2025.06.15

DETR (Detection Transformer)

개요DETR(Detection Transformer)는 트랜스포머(Transformer) 구조를 기반으로 한 최초의 완전한 객체 탐지 모델로, 기존 CNN 기반의 복잡한 후처리 절차를 제거하고 엔드 투 엔드 학습을 가능하게 만든 혁신적인 구조이다. 본 포스트에서는 DETR의 작동 원리, 구성 요소, 기술적 강점, 활용 사례 등을 자세히 설명한다.1. 개념 및 정의 항목 설명 정의DETR은 CNN 백본과 트랜스포머 인코더-디코더 구조를 활용해 객체 탐지를 수행하는 엔드 투 엔드 모델목적Anchor box, NMS(Non-Maximum Suppression) 없이 간결하고 정확한 객체 탐지필요성기존 탐지기들의 복잡한 파이프라인 및 수작업 튜닝 제거 필요2. 특징특징설명기존 탐지기와의 비교Anchor-fre..

Topic 2025.06.14
728x90
반응형