728x90
반응형

Vision Transformer 3

CLIP(Contrastive Language-Image Pretraining)

개요CLIP(Contrastive Language-Image Pretraining)은 OpenAI가 개발한 멀티모달 AI 모델로, 이미지와 텍스트를 동일한 임베딩 공간에서 비교할 수 있도록 학습된 모델이다. 이는 사전학습(pretraining) 방식으로 대규모 이미지-텍스트 쌍을 이용해 학습되어, 다양한 시각적 분류, 검색, 설명 등의 작업에서 탁월한 성능을 보인다.1. 개념 및 정의CLIP은 이미지를 설명하는 텍스트(캡션)와 함께 학습되어, 이미지와 텍스트가 의미적으로 가까운 경우 서로의 임베딩 벡터가 가까워지도록 학습하는 대조 학습(contrastive learning) 기반의 멀티모달 모델이다.목적: 이미지와 텍스트 간 의미적 정렬 학습필요성: 인간처럼 시각과 언어를 연결하는 직관적인 AI 개발2...

Topic 2025.05.11

Vision Transformer(ViT)

개요Vision Transformer(ViT)는 자연어 처리에서 뛰어난 성능을 보인 트랜스포머(Transformer) 구조를 이미지 처리에 도입한 혁신적인 딥러닝 모델입니다. 기존 CNN 기반 모델들과 달리, 이미지를 패치 단위로 분할하고 이를 토큰으로 처리하여, 시각적 정보를 글로벌 컨텍스트 기반으로 학습합니다.1. 개념 및 정의**ViT(Vision Transformer)**는 이미지를 고정된 크기의 패치로 나눈 후, 각 패치를 임베딩하여 순서가 있는 토큰 시퀀스로 변환한 뒤 트랜스포머 인코더에 입력하는 방식의 이미지 분류 아키텍처입니다.기반 기술: Transformer Encoder (Self-Attention 기반)등장 배경: CNN의 지역적 특성과 한계를 극복, 글로벌 관계 학습주요 논문: Do..

Topic 2025.05.06

Transformer 모델

개요Transformer 모델은 2017년 Google이 발표한 논문 *"Attention Is All You Need"*에서 처음 소개된 딥러닝 기반 신경망 구조로, 자연어 처리(NLP) 및 컴퓨터 비전 등 다양한 AI 분야에서 혁신을 가져온 모델입니다. 기존 순차적 방식의 RNN 및 LSTM과 달리 병렬 연산이 가능하며, 장기 의존성 문제(Long-Term Dependency)를 효과적으로 해결할 수 있어 GPT, BERT, T5, Vision Transformer(ViT) 등 다양한 AI 모델의 핵심 기술로 활용되고 있습니다.1. Transformer 모델이란?Transformer는 셀프 어텐션(Self-Attention) 메커니즘을 활용하여 입력 데이터의 중요한 패턴을 학습하는 딥러닝 모델입니다...

Topic 2025.03.05
728x90
반응형