728x90
반응형

OCR 3

DocTR(Document Text Recognition)

개요DocTR(Document Text Recognition)은 Mindee에서 개발한 오픈소스 딥러닝 기반 OCR 라이브러리로, 문서 이미지에서 텍스트 영역 탐지(Text Detection)와 텍스트 인식(Text Recognition)을 End-to-End로 수행하는 통합 프레임워크이다. PyTorch 및 TensorFlow를 모두 지원하며, 경량 모델부터 고정밀 모델까지 다양한 아키텍처를 제공한다.기존 OCR 엔진이 문자 인식 중심이었다면, DocTR은 문서 레이아웃을 고려한 탐지+인식 통합 구조를 채택하여 Document AI 파이프라인의 핵심 구성 요소로 활용되고 있다.1. 개념 및 정의DocTR은 두 단계 구조를 기반으로 한다. 첫 단계는 Differentiable Binarization(DB..

Topic 2026.03.06

TrOCR(Transformer-based Optical Character Recognition)

개요TrOCR는 Microsoft가 제안한 Transformer 기반 OCR 모델로, CNN+RNN 구조 중심의 전통적 OCR 방식에서 벗어나 Vision Transformer(ViT) 인코더와 Transformer 디코더를 결합한 End-to-End 문자 인식 모델이다. 이미지에서 직접 텍스트를 생성하는 Sequence-to-Sequence 구조를 채택하여, 별도의 문자 분리(Character Segmentation) 과정 없이 고정밀 인식이 가능하다.특히 인쇄체 및 필기체(Handwritten Text Recognition, HTR) 영역에서 기존 OCR 대비 높은 정확도를 보이며, Document AI 및 Multimodal AI 파이프라인의 핵심 모델로 활용되고 있다.1. 개념 및 정의TrOCR는..

Topic 2026.03.06

RPA (Robotic Process Automation)

개요RPA(Robotic Process Automation)는 사람이 수행하던 반복적이고 규칙 기반의 사무 업무를 소프트웨어 로봇(Bot)을 통해 자동화하는 기술이다. 주로 ERP, CRM, 웹 포털 등 다양한 시스템 간 데이터를 연계하거나 입력/조회/검증/이관하는 프로세스를 자동으로 처리함으로써, 업무 효율성, 정확성, 비용 절감 효과를 동시에 얻을 수 있다. 이 글에서는 RPA의 개념, 구성, 주요 기술 요소, RDA와의 차이점 및 활용 사례 등을 정리한다.1. 개념 및 정의RPA는 '디지털 워커'라고도 불리며, 사람이 수행하던 단순 반복 작업을 모방하고 자동으로 실행할 수 있는 소프트웨어 기술이다. 주로 백오피스 업무(회계, 인사, 고객 서비스 등)를 대상으로 하며, 정해진 로직에 따라 사람 개입 ..

Topic 2025.04.25
728x90
반응형