Mistral OCR 4 공개
2 hours ago
2
- Mistral AI가 공개한 Mistral OCR 4는 문서에서 텍스트만 뽑는 OCR을 넘어 바운딩 박스, 블록 분류, 인라인 신뢰도 점수까지 함께 반환하는 문서 이해 모델임
- 10개 언어 그룹의 170개 언어와 단일 컨테이너 자체 호스팅을 지원해, 데이터 주권·컴플라이언스가 중요한 조직의 문서 수집 파이프라인에 맞음
- 사람 선호도 평가에서는 평균 72% 승률을 기록했고, OlmOCRBench 85.20, OmniDocBench 93.07 등 공개·내부 평가에서도 높은 점수를 냄
- 다만 정답 오류, 동등한 수식 표기, 다중 컬럼 읽기 순서, 헤더·푸터 처리 같은 채점 한계 때문에 벤치마크 점수는 실제 문서 평가와 함께 봐야 함
- API는 1,000페이지당 $4, Batch API는 $2, Document AI는 $5이며, 원시 추출은 OCR 4로 충분하지만 구조화 JSON·이미지 주석·커스텀 프롬프트가 필요하면 Document AI 경로가 맞음
OCR 4가 반환하는 구조화 문서 표현
- OCR 4는 다양한 문서의 콘텐츠를 추출하고 구조화하며, 이전 세대처럼 깨끗한 텍스트와 표 변환에만 머물지 않고 구조화 표현을 함께 제공함
- 각 블록에는 바운딩 박스, 블록 유형, 페이지·단어 단위 인라인 신뢰도 점수가 포함됨
- 다운스트림 시스템은 문서의 내용뿐 아니라 각 요소의 위치, 역할, 신뢰 수준까지 활용할 수 있음
- 주요 활용 흐름은 다음과 같음
- RAG용 의미 단위 청킹: 정리되고 분류된 블록을 검색 단위로 사용
- 에이전트용 구조 프리미티브: 양식 작성, 청구서 처리, 컴플라이언스 점검 지원
- 커넥터용 구조화 콘텐츠: 수집·인덱싱 파이프라인에 일관된 타입 출력 제공
형식, 언어, 배포 방식
- 입력 형식은 PDF, DOC, PPT, OpenDocument 같은 일반적인 엔터프라이즈 문서 형식을 포함함
- 10개 언어 그룹의 170개 언어를 지원하며, 여러 시스템이 약해지는 전문·저자원 언어도 범위에 들어감
- 모델은 단일 컨테이너에 배포할 수 있을 만큼 작아 비용 민감형·고처리량 환경에 적합함
- 완전한 자체 호스팅 실행을 지원하므로 데이터 주권 요구가 있는 조직은 문서 데이터를 자체 인프라 안에 유지할 수 있음
- 자체 관리형 배포는 엔터프라이즈 고객에게 제공됨
가격과 사용 경로
- 개발자는 API로 모델을 통합할 수 있고, 팀은 Mistral Studio의 Document AI를 통해 같은 엔진을 노코드 애플리케이션 방식으로 사용할 수 있음
- 가격은 다음과 같음
- OCR 4 API: 1,000페이지당 $4
- Batch API 50% 할인 적용 시: 1,000페이지당 $2
- Document AI: 1,000페이지당 $5
- OCR 4는 Mistral Search Toolkit의 수집 컴포넌트로 통합되어 RAG와 엔터프라이즈 검색용 수집·검색·평가 워크플로에 인용 가능한 입력을 제공함
평가 결과와 벤치마크 한계
- OCR 4 평가는 AI 네이티브 OCR 모델, 범용 프런티어 모델, 엔터프라이즈 문서 서비스, Mistral OCR 3와의 비교로 진행됨
- 사람 선호도 평가는 실제 사용을 반영하도록 12개 이상 언어의 600개 이상 문서를 구성하고, 독립 주석자가 각 경쟁 시스템 출력과 OCR 4 출력을 문서별로 블라인드 비교함
- 주석자는 테스트된 모든 시스템에 대해 대부분의 문서에서 OCR 4를 더 선호함
- 평균 승률은 72% 임
- 공개 OlmOCRBench에서는 테스트된 모델 중 최고 전체 점수인 85.20을 기록함
- 내부 Crawl Multilingual evaluation에서는 .98로 AI 네이티브·엔터프라이즈 솔루션보다 앞섬
- OmniDocBench 점수는 93.07이지만, OlmOCRBench와 OmniDocBench 모두 일부 출력 채점 방식에 알려진 한계가 있음
- 감사된 불일치의 다수는 모델 오류라기보다 벤치마크 비교 방식에서 발생함
- 정답 오류: 참조 주석에 누락·추가 텍스트, 가려진 영역의 전사, 오타가 포함될 수 있음
- 동등한 수식 표기: 렌더링 결과가 같은 LaTeX라도 문자열이 다르면 불일치로 계산됨
- 수식 분할: 하나의 수식으로 내보내는지 여러 인라인 조각으로 나누는지에 따라 정답 매칭이 흔들림
- 다중 컬럼 읽기 순서: 컬럼 경계에서 나뉜 단어와 컬럼 순서 가정 때문에 올바른 추출도 실패로 채점될 수 있음
- 블록 유형 귀속: 헤더·푸터를 출력에서 제거한 뒤에도 페이지 제목 같은 문자열을 테스트가 잘못 플래그할 수 있음
- 이런 산물은 수학, 과학, 다중 컬럼 문서에 집중되며, 잘못된 출력에 보상을 주기보다 올바른 출력을 더 자주 벌점 처리함
- 모든 경쟁사 점수는 내부 재현 결과이므로, 실제 도입 전에는 자체 문서로 직접 평가하는 편이 안전함
다국어 성능
- 내부 다국어 평가에서 OCR 4는 8개 언어 그룹 모두에서 앞섬
- English
- Western Europe
- Eastern Europe
- Middle Eastern
- Chinese
- East Asian
- Southeast Asian
- Hindi, Japanese, Georgian, Bengali, Armenian, Hebrew, Greek, Gujarati, Tamil, Malayalam, Kannada, Telugu 등 전문 언어
- 격차는 전문·저자원 언어에서 가장 컸으며, 여러 경쟁 시스템이 급격히 저하되는 영역에서도 OCR 4는 높은 정확도를 유지함
권장 사용 사례와 제외 범위
- OCR 4는 고처리량 파이프라인과 대화형 문서 워크플로를 모두 지원함
- 권장 사용 사례는 다음과 같음
- 복잡한 다국어 문서의 문서 파싱·추출
- RAG용 구조화·분류·인용 가능 콘텐츠 생성
- Search Toolkit과 결합한 검색 파이프라인 입력
- 양식 작성, 청구서 처리, 컴플라이언스 점검 같은 에이전트 워크플로
- 신뢰도 점수를 활용한 사람 검증 기반 구조화 데이터 파이프라인
- 엔터프라이즈 검색과 지식 베이스용 데이터 소스 컴포넌트
- 초기 사용자는 OCR 4를 청구서의 구조화 필드 변환, 회사 아카이브 디지털화, 기술·과학 보고서의 깨끗한 텍스트 추출, 엔터프라이즈 검색에 적용하고 있음
- OCR 4는 문서 이해 모델이며 의사결정자가 아님
- 의료 진단, 법률 조언이나 판단, 고위험 금융 결정, 안전 중요 시스템, 실시간·지연 민감 처리, 원시 오디오·비디오 같은 비문서 입력에는 의도되지 않음
OCR 4 API와 Document AI 선택 기준
- OCR 4는 단일 API 엔드포인트로 제공되며, 모든 요청은 같은 기본 OCR 모델을 실행함
- 기본 응답에는 항상 추출 콘텐츠, 바운딩 박스, 블록 유형, 신뢰도 점수, Markdown 구조 텍스트가 포함됨
- 순수 추출 모드는 다음 상황에 맞음
- 빠르고 정확한 문서 추출을 애플리케이션, 에이전트, 데이터 파이프라인에 직접 내장
- 원시 응답, 바운딩 박스, 블록 유형, 신뢰도 점수를 직접 사용해 커스텀 후처리 로직 구성
- Batch API로 처리량과 비용을 제어하는 고처리량·배치 수집
- 엄격한 데이터 프라이버시, 주권, 컴플라이언스 요구에 맞춘 자체 호스팅
- Document AI 기능은 같은 엔드포인트에 추가 매개변수를 넣어 활성화함
- 문서와 함께 JSON 스키마를 전달하면 OCR 출력이 mistral-small-2603에 입력되어 지정한 명세에 맞는 구조화 JSON을 생성함
- 이미지 주석 스키마를 전달하면 감지된 이미지마다 추가 비전-언어 모델 호출로 구조화 JSON을 생성함
- JSON 스키마와 함께 커스텀 프롬프트를 사용해 전체 문서의 추출 콘텐츠 해석이나 요약을 안내할 수 있음
- 비즈니스 사용자, 솔루션 팀, 파일럿 프로젝트가 별도 후처리 파싱 로직 없이 구조화 결과를 만들 수 있음
- 원시 추출 콘텐츠가 필요하면 OCR 4를 그대로 쓰고, 구조화 형식 재가공·도메인 필드 주석·커스텀 지시 처리가 필요하면 Document AI 매개변수를 추가함
제공 채널과 시작 방법
- Mistral OCRv4와 OCRv4 기반 Document AI는 API, Mistral Studio, Amazon SageMaker, Microsoft Foundry에서 사용할 수 있음
- Snowflake Parse Document 지원은 곧 제공될 예정임
- 민감한 정보를 자체 인프라 안에 유지해야 하는 조직을 위해 OCR 4는 자체 호스팅 옵션도 제공함
- 시작 리소스는 다음과 같음
-
Homepage
-
개발자
- Mistral OCR 4 공개