개요BLIP-2(Bootstrapped Language-Image Pre-training)는 텍스트와 이미지를 동시에 처리할 수 있는 멀티모달 AI 시스템을 위한 사전학습(Pre-training) 프레임워크입니다. 특히 기존의 대형 비전 모델과 언어 모델을 연결하기 위한 복잡한 학습 과정을 줄이면서도, 뛰어난 성능을 보여주는 경량화된 구조를 특징으로 합니다. BLIP-2는 시각 질문응답(VQA), 이미지 캡셔닝, 이미지-텍스트 검색 등 다양한 멀티모달 태스크에 활용되며, 효율성과 확장성 측면에서 주목받고 있습니다.1. 개념 및 정의 항목 설명 정의BLIP-2는 이미 사전학습된 비전 모델과 대형 언어 모델(LLM)을 효율적으로 연결하여 멀티모달 작업을 가능하게 하는 사전학습 프레임워크입니다.목적대규모 멀..