728x90
반응형

Document AI 4

Donut(Document Understanding Transformer)

개요Donut(Document Understanding Transformer)는 NAVER Clova AI에서 제안한 End-to-End 문서 이해 모델로, 기존 OCR 기반 파이프라인을 제거하고 이미지에서 직접 구조화된 텍스트를 생성하는 Transformer 기반 아키텍처이다. 이름 그대로 OCR을 거치지 않고(“Document understanding without OCR”) Vision Encoder와 Transformer Decoder를 통해 문서를 직접 해석한다.기존 Document AI 스택은 OCR → 후처리 → 정보 추출의 다단계 구조였으나, Donut은 이를 단일 Seq2Seq 모델로 통합하여 파이프라인 복잡도를 크게 줄였다.1. 개념 및 정의Donut은 Vision Transformer..

Topic 2026.03.07

DocTR(Document Text Recognition)

개요DocTR(Document Text Recognition)은 Mindee에서 개발한 오픈소스 딥러닝 기반 OCR 라이브러리로, 문서 이미지에서 텍스트 영역 탐지(Text Detection)와 텍스트 인식(Text Recognition)을 End-to-End로 수행하는 통합 프레임워크이다. PyTorch 및 TensorFlow를 모두 지원하며, 경량 모델부터 고정밀 모델까지 다양한 아키텍처를 제공한다.기존 OCR 엔진이 문자 인식 중심이었다면, DocTR은 문서 레이아웃을 고려한 탐지+인식 통합 구조를 채택하여 Document AI 파이프라인의 핵심 구성 요소로 활용되고 있다.1. 개념 및 정의DocTR은 두 단계 구조를 기반으로 한다. 첫 단계는 Differentiable Binarization(DB..

Topic 2026.03.06

TrOCR(Transformer-based Optical Character Recognition)

개요TrOCR는 Microsoft가 제안한 Transformer 기반 OCR 모델로, CNN+RNN 구조 중심의 전통적 OCR 방식에서 벗어나 Vision Transformer(ViT) 인코더와 Transformer 디코더를 결합한 End-to-End 문자 인식 모델이다. 이미지에서 직접 텍스트를 생성하는 Sequence-to-Sequence 구조를 채택하여, 별도의 문자 분리(Character Segmentation) 과정 없이 고정밀 인식이 가능하다.특히 인쇄체 및 필기체(Handwritten Text Recognition, HTR) 영역에서 기존 OCR 대비 높은 정확도를 보이며, Document AI 및 Multimodal AI 파이프라인의 핵심 모델로 활용되고 있다.1. 개념 및 정의TrOCR는..

Topic 2026.03.06

Modern OCR Stack(차세대 OCR 아키텍처)

개요Modern OCR Stack은 전통적인 문자 인식(OCR)을 넘어 문서 레이아웃 이해, 테이블 추출, 필드 구조화, 의미 기반 정보 추출까지 포함하는 통합 문서 AI(Document AI) 아키텍처를 의미한다. 과거의 Tesseract 기반 단순 텍스트 추출에서 발전하여, Transformer 기반 비전-언어 모델(VLM), 레이아웃 분석, 후처리 파이프라인이 결합된 구조로 진화하였다.금융, 보험, 공공기관, 물류, 의료 등 대량 문서 처리 산업에서 자동화 수요가 증가하면서 Modern OCR Stack은 AI 기반 업무 자동화의 핵심 인프라로 자리잡고 있다.1. 개념 및 정의Modern OCR Stack은 이미지 기반 문서를 입력받아 텍스트 인식, 레이아웃 분석, 의미 추출, 데이터 정제 및 시스..

Topic 2026.03.05
728x90
반응형