Donut(Document Understanding Transformer)

개요
Donut(Document Understanding Transformer)는 NAVER Clova AI에서 제안한 End-to-End 문서 이해 모델로, 기존 OCR 기반 파이프라인을 제거하고 이미지에서 직접 구조화된 텍스트를 생성하는 Transformer 기반 아키텍처이다. 이름 그대로 OCR을 거치지 않고(“Document understanding without OCR”) Vision Encoder와 Transformer Decoder를 통해 문서를 직접 해석한다.
기존 Document AI 스택은 OCR → 후처리 → 정보 추출의 다단계 구조였으나, Donut은 이를 단일 Seq2Seq 모델로 통합하여 파이프라인 복잡도를 크게 줄였다.
1. 개념 및 정의
Donut은 Vision Transformer(ViT) 기반 인코더와 Autoregressive Transformer 디코더를 결합한 구조로, 입력 문서 이미지를 받아 JSON 형태의 구조화 데이터를 직접 생성한다.
이는 OCR 오류 전파(Error Propagation) 문제를 제거하고, 문맥 기반 필드 추출을 가능하게 하는 차세대 Document AI 접근 방식으로 평가된다.
2. 특징
| 구분 | 설명 | 기술적 가치 |
| OCR-Free 구조 | 중간 텍스트 추출 단계 제거 | 오류 전파 감소 |
| End-to-End 학습 | 탐지·인식·추출 통합 | 파이프라인 단순화 |
| JSON 직접 출력 | 구조화 데이터 생성 | 자동화 용이 |
첨언: 복잡한 레이아웃 문서에서 강력한 성능을 보인다.
3. 구성 요소
| 구성 요소 | 역할 | 관련 기술 |
| Vision Encoder | 이미지 특징 추출 | Swin Transformer |
| Transformer Decoder | 시퀀스 기반 데이터 생성 | Autoregressive LM |
| Token Schema | 구조화 필드 정의 | JSON Template |
첨언: 사전 정의된 토큰 스키마 설계가 성능에 중요한 영향을 준다.
4. 기술 요소
| 기술 영역 | 세부 기술 | 설명 |
| Multimodal Learning | 이미지+텍스트 통합 | 문서 이해 강화 |
| Seq2Seq Modeling | 입력→출력 직접 매핑 | 구조화 자동화 |
| Fine-tuning | 도메인 특화 학습 | 산업별 최적화 |
첨언: 데이터 증강 전략이 모델 일반화에 중요하다.
5. 장점 및 이점
| 구분 | 기대 효과 | 실무 영향 |
| 파이프라인 단순화 | OCR 단계 제거 | 유지보수 용이 |
| 정확도 향상 | 문맥 기반 추출 | 오류 감소 |
| 확장성 | 다양한 문서 형식 대응 | 자동화 확대 |
첨언: RPA 및 업무 자동화 시스템과 결합 시 효과가 크다.
6. 주요 활용 사례 및 고려사항
| 활용 분야 | 적용 사례 | 고려사항 |
| 청구서 처리 | 필드 자동 추출 | 도메인 학습 필요 |
| 영수증 인식 | 구조화 데이터 생성 | 이미지 품질 |
| 계약서 분석 | 핵심 정보 파싱 | 대용량 학습 데이터 |
첨언: 사전 정의된 출력 포맷 설계가 프로젝트 성공을 좌우한다.
7. 결론
Donut은 OCR 중심 Document AI 구조를 혁신적으로 단순화한 End-to-End Transformer 모델이다. 이미지에서 직접 구조화된 데이터를 생성함으로써 오류 전파를 줄이고 자동화 수준을 높였다. 향후 대형 멀티모달 LLM과 결합되면서 더욱 강력한 문서 이해 플랫폼으로 발전할 것으로 전망된다.