728x90
반응형

visiontransformer 4

Mask2Former

개요Mask2Former는 인스턴스 세분화, 시맨틱 세분화, 팬옵틱 세분화 작업을 하나의 아키텍처에서 통합적으로 처리할 수 있는 범용 세분화 프레임워크이다. MaskFormer의 후속작으로서, 트랜스포머 구조와 다중 레벨 feature fusion을 기반으로 하여 다양한 세분화 태스크에 최적의 성능을 제공한다.1. 개념 및 정의 항목 설명 정의Mask2Former는 이미지 세분화 전반을 하나의 통합된 트랜스포머 모델로 처리하는 범용 Segmentation 아키텍처목적세분화 태스크의 범용화 및 성능 향상, 단일 모델로 다중 태스크 처리필요성기존 세분화 모델은 인스턴스/시맨틱/팬옵틱을 개별 구조로 처리해야 했던 한계 존재2. 특징특징설명기존 모델 대비Unified Architecture하나의 트랜스포머 모..

Topic 2025.06.15

Performer (FAVOR+)

개요Performer는 기존 Transformer의 연산 병목을 해결하기 위해 고안된 선형 복잡도 어텐션 알고리즘이다. 특히 FAVOR+ (Fast Attention Via Positive Orthogonal Random features)는 Self-Attention의 계산량을 O(N²)에서 O(N)으로 줄여 대규모 입력 처리에서 속도와 메모리 사용을 획기적으로 개선한다. 본 글에서는 Performer의 핵심 개념, FAVOR+의 수학적 원리, 기술적 장점과 다양한 활용 사례를 상세히 소개한다.1. 개념 및 정의 항목 설명 정의Performer는 Self-Attention을 근사하는 선형 어텐션 기반 트랜스포머 구조로, FAVOR+ 기법을 핵심으로 사용목적트랜스포머 구조의 연산량을 선형 수준으로 낮춰 ..

Topic 2025.06.14

DiT (Diffusion Transformer)

개요DiT(Diffusion Transformer)는 이미지 생성 디퓨전 모델에서 기존 U-Net 구조를 Transformer로 대체하여 성능과 확장성을 개선한 새로운 구조입니다. 특히, Transformer의 표현력과 스케일업 가능성을 활용해 고해상도 이미지 생성, 안정적 학습 등에서 차별화된 성능을 보여주며, DALL·E 3 및 Stable Diffusion 3와 같은 최신 생성형 AI 시스템에 영향을 주고 있습니다.1. 개념 및 정의 항목 내용 정의디퓨전 노이즈 제거 네트워크에 Transformer를 적용한 모델목표기존 CNN 기반 U-Net 대비 더 강력한 표현력 확보특징Latent 디퓨전 과정에서 Transformer가 노이즈 예측을 수행DiT는 Diffusion 과정에서 일정 단계(times..

Topic 2025.05.26

Segment Anything Model (SAM)

개요Segment Anything Model(SAM)은 Meta AI에서 개발한 범용 이미지 분할 모델로, 입력 이미지에서 사용자가 지정한 영역을 즉시 분할할 수 있는 강력한 비전 모델입니다. 사전 학습된 거대한 데이터셋과 Prompt 기반 분할 기술을 바탕으로 다양한 도메인에서 고정밀 이미지 인식과 객체 탐지를 가능하게 하며, 컴퓨터 비전, 의료 영상, 로보틱스, 생성형 AI 등 다양한 분야에서 폭넓게 활용됩니다.1. 개념 및 정의SAM은 사전 학습(pretrained)된 Transformer 기반의 이미지 분할 모델로, 사용자의 간단한 입력(prompt)에 따라 객체 단위의 마스크를 빠르게 생성합니다.Segment Anything: 텍스트, 점, 박스 등 다양한 입력으로 객체 분할 가능모델 구조: 이..

Topic 2025.05.21
728x90
반응형