728x90
반응형

VIT 3

PaLM-E (Pathways Language Model - Embodied)

개요PaLM-E는 Google Research가 발표한 'Embodied Multimodal Language Model(VLM)'로, 로봇 제어 능력을 갖춘 대형 언어 모델입니다. Vision-Language-Action의 통합 아키텍처를 지향하며, 언어, 이미지, 센서 데이터를 동시에 처리하여 로봇에 직접적인 명령을 수행할 수 있는 특징을 갖습니다. 이는 기존 언어 모델과는 다른 실시간 상호작용 중심의 AI로서 새로운 진화를 예고합니다.1. 개념 및 정의 항목 내용 정의텍스트, 이미지, 로봇 센서 데이터를 입력으로 받아 언어 출력 및 로봇 행동 시퀀스를 생성하는 멀티모달 모델목표로봇이 사람의 명령을 언어와 시각정보로 이해하고 실세계에서 직접 실행 가능하게 함구성 기반PaLM (Language) + V..

Topic 2025.05.26

DiT (Diffusion Transformer)

개요DiT(Diffusion Transformer)는 이미지 생성 디퓨전 모델에서 기존 U-Net 구조를 Transformer로 대체하여 성능과 확장성을 개선한 새로운 구조입니다. 특히, Transformer의 표현력과 스케일업 가능성을 활용해 고해상도 이미지 생성, 안정적 학습 등에서 차별화된 성능을 보여주며, DALL·E 3 및 Stable Diffusion 3와 같은 최신 생성형 AI 시스템에 영향을 주고 있습니다.1. 개념 및 정의 항목 내용 정의디퓨전 노이즈 제거 네트워크에 Transformer를 적용한 모델목표기존 CNN 기반 U-Net 대비 더 강력한 표현력 확보특징Latent 디퓨전 과정에서 Transformer가 노이즈 예측을 수행DiT는 Diffusion 과정에서 일정 단계(times..

Topic 2025.05.26

Vision Transformer(ViT)

개요Vision Transformer(ViT)는 자연어 처리에서 뛰어난 성능을 보인 트랜스포머(Transformer) 구조를 이미지 처리에 도입한 혁신적인 딥러닝 모델입니다. 기존 CNN 기반 모델들과 달리, 이미지를 패치 단위로 분할하고 이를 토큰으로 처리하여, 시각적 정보를 글로벌 컨텍스트 기반으로 학습합니다.1. 개념 및 정의**ViT(Vision Transformer)**는 이미지를 고정된 크기의 패치로 나눈 후, 각 패치를 임베딩하여 순서가 있는 토큰 시퀀스로 변환한 뒤 트랜스포머 인코더에 입력하는 방식의 이미지 분류 아키텍처입니다.기반 기술: Transformer Encoder (Self-Attention 기반)등장 배경: CNN의 지역적 특성과 한계를 극복, 글로벌 관계 학습주요 논문: Do..

Topic 2025.05.06
728x90
반응형