728x90
반응형

cnn 대안 2

Vision Transformer(ViT)

개요Vision Transformer(ViT)는 자연어 처리에서 뛰어난 성능을 보인 트랜스포머(Transformer) 구조를 이미지 처리에 도입한 혁신적인 딥러닝 모델입니다. 기존 CNN 기반 모델들과 달리, 이미지를 패치 단위로 분할하고 이를 토큰으로 처리하여, 시각적 정보를 글로벌 컨텍스트 기반으로 학습합니다.1. 개념 및 정의**ViT(Vision Transformer)**는 이미지를 고정된 크기의 패치로 나눈 후, 각 패치를 임베딩하여 순서가 있는 토큰 시퀀스로 변환한 뒤 트랜스포머 인코더에 입력하는 방식의 이미지 분류 아키텍처입니다.기반 기술: Transformer Encoder (Self-Attention 기반)등장 배경: CNN의 지역적 특성과 한계를 극복, 글로벌 관계 학습주요 논문: Do..

Topic 2025.05.06

Capsule Network (캡슐 네트워크)

개요Capsule Network(캡슐 네트워크)는 Geoffrey Hinton 박사가 제안한 딥러닝 아키텍처의 진화 형태로, 전통적인 CNN이 가지는 한계를 극복하기 위해 설계되었습니다. 객체의 위치, 방향, 크기, 계층적 관계를 더 잘 인식할 수 있는 구조로, 특히 이미지 인식, 3D 객체 추정, 의료 영상 분석 등에서 높은 정확도와 해석 가능성을 제공합니다.1. 개념 및 정의캡슐 네트워크는 단순 뉴런이 아닌 벡터 또는 행렬로 표현되는 캡슐(Capsule) 을 기반으로 구성됩니다. 각 캡슐은 특징의 존재 여부뿐만 아니라 '자세(Pose)' 정보까지 함께 학습합니다. 하위 캡슐에서 상위 캡슐로의 연결은 동적 라우팅(Dynamic Routing) 메커니즘을 통해 수행되며, 이는 학습 시 계층 간의 관계성 ..

Topic 2025.04.06
728x90
반응형