728x90
반응형

blip-2 2

BLIP-2 (Bootstrapped Language-Image Pre-training)

개요BLIP-2(Bootstrapped Language-Image Pre-training)는 텍스트와 이미지를 동시에 처리할 수 있는 멀티모달 AI 시스템을 위한 사전학습(Pre-training) 프레임워크입니다. 특히 기존의 대형 비전 모델과 언어 모델을 연결하기 위한 복잡한 학습 과정을 줄이면서도, 뛰어난 성능을 보여주는 경량화된 구조를 특징으로 합니다. BLIP-2는 시각 질문응답(VQA), 이미지 캡셔닝, 이미지-텍스트 검색 등 다양한 멀티모달 태스크에 활용되며, 효율성과 확장성 측면에서 주목받고 있습니다.1. 개념 및 정의 항목 설명 정의BLIP-2는 이미 사전학습된 비전 모델과 대형 언어 모델(LLM)을 효율적으로 연결하여 멀티모달 작업을 가능하게 하는 사전학습 프레임워크입니다.목적대규모 멀..

Topic 2025.06.06

Parallel Cross Attention (병렬 교차 주의)

개요Parallel Cross Attention(병렬 교차 주의)은 Transformer 기반 아키텍처에서 여러 입력 소스(예: 텍스트-이미지, 질문-문서, 명령-이력 등) 를 동시에 고려하고 병렬적으로 통합하는 방식의 Attention 구조입니다. 이는 기존의 Sequential Cross Attention(순차적 교차 주의) 대비 더 높은 병렬성, 속도, 유연성을 제공하며, 특히 멀티모달 학습, 디코더 기반 생성 모델, 비전-언어 정렬 등에서 주로 사용됩니다.1. 개념 및 정의Parallel Cross Attention은 하나의 쿼리(Query) 입력에 대해 둘 이상의 키/값(Key/Value) 세트와 병렬적으로 Attention을 수행한 뒤, 이들을 결합(fusion)하는 방식으로 작동합니다.입력:..

Topic 2025.04.06
728x90
반응형