728x90
반응형

멀티모달 학습 2

CLIP(Contrastive Language-Image Pretraining)

개요CLIP(Contrastive Language-Image Pretraining)은 OpenAI가 개발한 멀티모달 AI 모델로, 이미지와 텍스트를 동일한 임베딩 공간에서 비교할 수 있도록 학습된 모델이다. 이는 사전학습(pretraining) 방식으로 대규모 이미지-텍스트 쌍을 이용해 학습되어, 다양한 시각적 분류, 검색, 설명 등의 작업에서 탁월한 성능을 보인다.1. 개념 및 정의CLIP은 이미지를 설명하는 텍스트(캡션)와 함께 학습되어, 이미지와 텍스트가 의미적으로 가까운 경우 서로의 임베딩 벡터가 가까워지도록 학습하는 대조 학습(contrastive learning) 기반의 멀티모달 모델이다.목적: 이미지와 텍스트 간 의미적 정렬 학습필요성: 인간처럼 시각과 언어를 연결하는 직관적인 AI 개발2...

Topic 2025.05.11

Parallel Cross Attention (병렬 교차 주의)

개요Parallel Cross Attention(병렬 교차 주의)은 Transformer 기반 아키텍처에서 여러 입력 소스(예: 텍스트-이미지, 질문-문서, 명령-이력 등) 를 동시에 고려하고 병렬적으로 통합하는 방식의 Attention 구조입니다. 이는 기존의 Sequential Cross Attention(순차적 교차 주의) 대비 더 높은 병렬성, 속도, 유연성을 제공하며, 특히 멀티모달 학습, 디코더 기반 생성 모델, 비전-언어 정렬 등에서 주로 사용됩니다.1. 개념 및 정의Parallel Cross Attention은 하나의 쿼리(Query) 입력에 대해 둘 이상의 키/값(Key/Value) 세트와 병렬적으로 Attention을 수행한 뒤, 이들을 결합(fusion)하는 방식으로 작동합니다.입력:..

Topic 2025.04.06
728x90
반응형