728x90
반응형

2026/03/05 2

Modern OCR Stack(차세대 OCR 아키텍처)

개요Modern OCR Stack은 전통적인 문자 인식(OCR)을 넘어 문서 레이아웃 이해, 테이블 추출, 필드 구조화, 의미 기반 정보 추출까지 포함하는 통합 문서 AI(Document AI) 아키텍처를 의미한다. 과거의 Tesseract 기반 단순 텍스트 추출에서 발전하여, Transformer 기반 비전-언어 모델(VLM), 레이아웃 분석, 후처리 파이프라인이 결합된 구조로 진화하였다.금융, 보험, 공공기관, 물류, 의료 등 대량 문서 처리 산업에서 자동화 수요가 증가하면서 Modern OCR Stack은 AI 기반 업무 자동화의 핵심 인프라로 자리잡고 있다.1. 개념 및 정의Modern OCR Stack은 이미지 기반 문서를 입력받아 텍스트 인식, 레이아웃 분석, 의미 추출, 데이터 정제 및 시스..

Topic 2026.03.05

Sparse–Dense Hybrid Indexing(희소–밀집 혼합 인덱싱)

개요Sparse–Dense Hybrid Indexing은 전통적인 희소(Sparse) 기반 키워드 검색(BM25 등)과 밀집(Dense) 벡터 임베딩 검색(Embedding Retrieval)을 결합한 검색 아키텍처이다. LLM 기반 RAG(Retrieval-Augmented Generation) 시스템이 확산되면서, 단순 키워드 검색 또는 벡터 검색 단독 방식의 한계를 보완하기 위한 하이브리드 전략이 주목받고 있다.Sparse 인덱스는 정확한 키워드 매칭에 강점이 있으며, Dense 인덱스는 의미 기반(Semantic) 검색에 강하다. Hybrid Indexing은 두 방식을 결합하여 검색 정확도(Precision)와 재현율(Recall)을 동시에 개선하는 것을 목표로 한다.1. 개념 및 정의Spars..

Topic 2026.03.05
728x90
반응형