개요Multimodal RAG(Retrieval-Augmented Generation)는 텍스트(Text), 이미지(Image), 비디오(Video) 등 다양한 모달리티 데이터를 동시에 이해하고 생성할 수 있는 차세대 생성형 AI 아키텍처이다. 기존의 RAG가 텍스트 기반 검색과 생성에 초점을 맞췄다면, Multimodal RAG는 비정형 데이터까지 확장하여 **지식 기반 멀티모달 추론(Multimodal Reasoning)**을 가능하게 한다.1. 개념 및 정의Multimodal RAG는 기본적으로 두 단계로 구성된다.Retrieval (검색) – 외부 지식베이스(예: 이미지, 문서, 비디오 프레임)에서 관련 정보를 검색.Generation (생성) – 검색된 정보를 Transformer 기반 멀티모달..