728x90
반응형

vision-language model 2

Donut(Document Understanding Transformer)

개요Donut(Document Understanding Transformer)는 NAVER Clova AI에서 제안한 End-to-End 문서 이해 모델로, 기존 OCR 기반 파이프라인을 제거하고 이미지에서 직접 구조화된 텍스트를 생성하는 Transformer 기반 아키텍처이다. 이름 그대로 OCR을 거치지 않고(“Document understanding without OCR”) Vision Encoder와 Transformer Decoder를 통해 문서를 직접 해석한다.기존 Document AI 스택은 OCR → 후처리 → 정보 추출의 다단계 구조였으나, Donut은 이를 단일 Seq2Seq 모델로 통합하여 파이프라인 복잡도를 크게 줄였다.1. 개념 및 정의Donut은 Vision Transformer..

Topic 2026.03.07

Parallel Cross Attention (병렬 교차 주의)

개요Parallel Cross Attention(병렬 교차 주의)은 Transformer 기반 아키텍처에서 여러 입력 소스(예: 텍스트-이미지, 질문-문서, 명령-이력 등) 를 동시에 고려하고 병렬적으로 통합하는 방식의 Attention 구조입니다. 이는 기존의 Sequential Cross Attention(순차적 교차 주의) 대비 더 높은 병렬성, 속도, 유연성을 제공하며, 특히 멀티모달 학습, 디코더 기반 생성 모델, 비전-언어 정렬 등에서 주로 사용됩니다.1. 개념 및 정의Parallel Cross Attention은 하나의 쿼리(Query) 입력에 대해 둘 이상의 키/값(Key/Value) 세트와 병렬적으로 Attention을 수행한 뒤, 이들을 결합(fusion)하는 방식으로 작동합니다.입력:..

Topic 2025.04.06
728x90
반응형