[2026 상반기 혁신상품 대상]지미션, 문서의 구조와 의미까지 이해하는 차세대 'VLM OCR'

1 hour ago 2

기업이 보유한 문서와 데이터의 약 80~90%는 정형화되지 않은 '비정형 문서'다. 직원의 92%가 PDF·이메일·종이문서를 일일이 열어 필요한 데이터를 직접 입력하고 있으며, 수작업 입력 시 1000건당 10회 이상의 오류가 발생해 품질 저하와 업무 지연, 비용 손실로 이어진다

AI 솔루션 전문기업 지미션이 선보인 'VLM OCR'은 이 같은 비정형 문서 처리의 오랜 한계를 정면으로 겨냥한 차세대 문서 인식 솔루션이다.

VLM OCR의 핵심은 비전 언어 모델(VLM)을 기반으로 텍스트·이미지·레이아웃을 동시에 학습하고 분석한다는 점이다. 문자를 정확히 추출하는 데 집중했던 기존 광학문자인식(OCR)과 달리, 글자는 물론 표·그래픽·서식 구조까지 종합적으로 파악해 문서 전체의 의미와 맥락을 읽어낸다. 특히 컴퓨터가 이미지를 픽셀 좌표(x, y)의 집합으로 보는 방식에서 벗어나, 사람처럼 요소 간 상대적 위치와 의미적 연결성을 이해하는 '시각적 관계' 학습 전략을 적용한 것이 차별점이다. 덕분에 인쇄가 양식지 칸을 벗어나거나 선에 걸쳐 찍힌 문서, 구겨지고 번진 저품질 스캔 문서도 문맥에 맞게 정확히 인식한다. 17가지 서식별 파인튜닝과 고해상도 복원·왜곡 보정 등 정교한 이미지 전처리 기술로 인식 성능을 한층 끌어올렸다.

VLM OCR은 단순 인식을 넘어 데이터의 신뢰성까지 책임진다. '총계'처럼 병합된 셀의 개념적 의미를 이해해 항목 매핑 오류를 줄이고, 합계 불일치 같은 재무 논리와 카드번호·사업자등록번호 규칙까지 검증하는 데이터 무결성 기능을 갖췄다. 또한 신뢰도 임계치 이하 데이터는 전용 에디터에서 수정해 재학습하는 기능을 제공했다. 문서 내 다른 페이지나 첨부 문서를 참조해 최종 값을 도출하는 'Key-Value 참조' 기능도 강점이다. 성능 면에서는 복수의 GPU 병렬 오버랩 청킹 아키텍처로 대량의 장문 문서를 빠르게 처리하면서, 데이터 누락은 '제로(Zero)'에 가깝고 추출률 90% 이상을 보장한다.

도입 효과는 수치로 확인된다. 한 금융기관은 매달 1주일 이상 걸리던 통신 회선 변동관리 작업을 VLM OCR 기반 자동화로 전환해 업무 소요시간을 95% 이상 단축하고 데이터 정확도 99% 이상을 달성했다.

이경민 기자 kmlee@etnews.com

Read Entire Article