개요Visual Question Answering(VQA)는 하나의 이미지와 자연어로 표현된 질문을 입력으로 받아, 해당 질문에 대해 자연어로 답변을 생성하는 인공지능 기술이다. 이는 컴퓨터 비전과 자연어 처리(NLP)를 융합하는 대표적인 멀티모달 AI 과제로, 자율주행, 의료 영상 분석, 교육용 AI, 쇼핑 보조 시스템 등 다양한 분야에서 응용 가능성이 높다.1. 개념 및 정의VQA는 이미지 이해와 질의 분석, 그리고 추론 능력을 결합하여 '이미지를 보고 질문에 답하는 AI'를 구현하는 기술이다. 주어진 질문이 시각적 정보를 요구할 때, 모델은 이미지 내 객체, 색상, 위치, 관계 등을 분석하고 문맥에 맞는 답변을 생성한다.목적: 시각 정보 기반 질의응답 자동화필요성: 이미지 인식만으로 부족한 고차원적..