Mistral OCR 3

1 month ago 14

  • 문서 처리 정확도와 효율성을 동시에 향상시킨 차세대 OCR 모델로, 다양한 문서 유형에서 높은 인식 성능을 제공
  • 이전 버전 대비 74%의 전반적 성능 향상을 기록하며, 필기체·양식·복잡한 표·스캔 문서 등에서 우수한 결과를 달성
  • HTML 기반 표 재구성과 마크다운 출력 지원으로 문서의 구조적 정보까지 보존 가능
  • 1,000페이지당 2달러, 대량 처리 시 50% 할인으로 비용 효율성을 확보
  • 기업용 대규모 파이프라인부터 인터랙티브 문서 워크플로우까지 폭넓게 활용 가능한 OCR 기술로, 생성형 AI 기반 데이터 활용의 핵심 인프라로 부상

주요 성능 및 특징

  • Mistral OCR 3는 다양한 문서에서 텍스트와 내장 이미지 추출을 고정밀도로 수행
    • 마크다운 형식 출력과 HTML 표 재구성 기능을 지원해 문서의 내용뿐 아니라 구조까지 인식 가능
    • 모델 크기가 작아 경쟁 솔루션 대비 낮은 비용으로 제공되며, 1,000페이지당 2달러, Batch API 사용 시 1달러로 이용 가능
  • mistral-ocr-2512 모델을 API로 통합하거나, Document AI Playground UI를 통해 PDF·이미지를 텍스트 또는 구조화된 JSON으로 변환 가능

성능 향상 및 벤치마크

  • 내부 벤치마크에서 Mistral OCR 2 대비 74%의 승률을 기록
    • 테스트는 실제 고객의 비즈니스 사례를 기반으로 수행되었으며, 정확도는 fuzzy-match metric으로 평가
  • 엔터프라이즈 문서 처리 솔루션 및 AI 기반 OCR을 모두 능가하는 정확도 달성

주요 업그레이드 영역

  • 필기 인식: 필기체, 혼합 주석, 인쇄된 양식 위의 손글씨를 정확히 해석
  • 양식 처리: 상자, 라벨, 필기 입력, 복잡한 레이아웃 인식 향상
  • 스캔 및 복잡 문서: 압축 손상, 왜곡, 저해상도, 배경 노이즈에 강한 내성 확보
  • 복잡한 표 구조: 머리글, 병합 셀, 다중 행·열 계층을 포함한 표를 HTML 태그(colspan/rowspan) 으로 완전 재현
  • 모든 언어와 문서 형태에서 Mistral OCR 2 대비 전반적 성능 향상

활용 사례 및 응용 분야

  • 대규모 기업 문서 파이프라인인터랙티브 문서 워크플로우 모두에 적합
    • 텍스트·이미지 추출 후 마크다운 변환, 양식·송장 자동 파싱, 문서 이해 파이프라인 구축, 필기·역사 문서 디지털화 등 지원
  • 초기 고객들은 송장을 구조화 필드로 변환하거나, 기업 아카이브 디지털화, 기술·과학 보고서 텍스트 추출, 엔터프라이즈 검색 개선에 활용 중
  • IDC의 Tim Law는 “OCR은 생성형 AI와 에이전트형 AI의 기반 기술이며, 고정밀·저비용 텍스트 추출 역량이 데이터 활용 경쟁력을 결정한다”고 언급

접근 방식 및 호환성

  • API 또는 Document AI Playground 인터페이스를 통해 즉시 사용 가능
  • Mistral OCR 2와 완전 호환, 기존 시스템에서 손쉽게 업그레이드 가능
  • 세부 문서는 mistral.ai/docs에서 확인 가능

Read Entire Article