개요Vision Transformer(ViT)는 자연어 처리에서 뛰어난 성능을 보인 트랜스포머(Transformer) 구조를 이미지 처리에 도입한 혁신적인 딥러닝 모델입니다. 기존 CNN 기반 모델들과 달리, 이미지를 패치 단위로 분할하고 이를 토큰으로 처리하여, 시각적 정보를 글로벌 컨텍스트 기반으로 학습합니다.1. 개념 및 정의**ViT(Vision Transformer)**는 이미지를 고정된 크기의 패치로 나눈 후, 각 패치를 임베딩하여 순서가 있는 토큰 시퀀스로 변환한 뒤 트랜스포머 인코더에 입력하는 방식의 이미지 분류 아키텍처입니다.기반 기술: Transformer Encoder (Self-Attention 기반)등장 배경: CNN의 지역적 특성과 한계를 극복, 글로벌 관계 학습주요 논문: Do..