
개요VideoPoet은 구글(Google DeepMind)에서 개발한 멀티모달 생성형 모델로, 텍스트, 오디오, 이미지, 동영상을 하나의 시퀀스 토큰화 구조로 통합하여 동영상을 생성하는 최신 AI 프레임워크이다. 특히 Token-Infusion 기법을 활용해 다양한 모달리티 간 통합을 자연스럽게 구현할 수 있다는 점에서 주목받고 있다.1. 개념 및 정의 항목 설명 정의VideoPoet은 텍스트, 오디오, 이미지 입력을 받아 동영상을 생성할 수 있는 autoregressive 멀티모달 모델목적간단한 텍스트 명령으로 복잡한 영상 콘텐츠 생성 가능하게 함필요성기존 비디오 생성 모델의 모달리티 분리 한계를 극복하고 창의적 영상 합성 요구 증가2. 특징특징설명기존 모델과 비교Token-Infusion각 moda..