728x90
반응형

이미지 캡셔닝 2

LLaVA (Large Language and Vision Assistant)

개요LLaVA는 이미지와 텍스트를 동시에 이해하고 처리할 수 있는 오픈소스 멀티모달 대화형 AI 모델로, OpenAI의 GPT-4V와 유사한 비전-언어 통합 능력을 갖춘 Assistant 구조입니다. 시각 정보 처리 능력을 갖춘 LLaVA는 이미지 설명, 시각 질문 응답(VQA), OCR, 챗봇 등 다양한 응용 분야에서 활용되며, LLM과 시각 인식의 결합이라는 현대 AI 트렌드를 대표합니다.1. 개념 및 정의 항목 설명 정의LLaVA는 Large Language Model과 Vision Encoder를 결합하여 이미지 기반 질의응답 및 대화형 AI를 실현한 멀티모달 모델입니다.목적시각 정보를 포함한 지능형 응답을 제공함으로써, 보다 직관적이고 풍부한 인터페이스 구현필요성언어 기반 LLM만으로는 한계가..

Topic 2025.06.06

CLIP(Contrastive Language-Image Pretraining)

개요CLIP(Contrastive Language-Image Pretraining)은 OpenAI가 개발한 멀티모달 AI 모델로, 이미지와 텍스트를 동일한 임베딩 공간에서 비교할 수 있도록 학습된 모델이다. 이는 사전학습(pretraining) 방식으로 대규모 이미지-텍스트 쌍을 이용해 학습되어, 다양한 시각적 분류, 검색, 설명 등의 작업에서 탁월한 성능을 보인다.1. 개념 및 정의CLIP은 이미지를 설명하는 텍스트(캡션)와 함께 학습되어, 이미지와 텍스트가 의미적으로 가까운 경우 서로의 임베딩 벡터가 가까워지도록 학습하는 대조 학습(contrastive learning) 기반의 멀티모달 모델이다.목적: 이미지와 텍스트 간 의미적 정렬 학습필요성: 인간처럼 시각과 언어를 연결하는 직관적인 AI 개발2...

Topic 2025.05.11
728x90
반응형