이파피루스 '파이뮤PDF 프로', 레이아웃 분석 성능 업그레이드

2 weeks ago 3
'파이뮤PDF프로'가 문서 데이터를 추출하는 모습.'파이뮤PDF프로'가 문서 데이터를 추출하는 모습.

문서 인공지능(AI) 기업 이파피루스(대표 김정희)는 자사 문서 데이터 추출 라이브러리 '파이뮤PDF 프로(PyMuPDF Pro)' 성능 업그레이드를 진행했다고 26일 밝혔다.

이번 업데이트에서는 머신러닝을 이용한 문서 레이아웃 분석 기능이 추가됐다. 현재 AI 전처리를 위해 사용되는 시중의 문서 데이터 추출 솔루션 대부분은 문서를 고해상도 이미지로 인식한 뒤 데이터를 추출하는 VLM(비전 언어 모델) 방식을 기반으로 하여 추출 속도가 느리고, 고가의 GPU를 필요로 한다는 단점이 있다.

최신 버전의 '파이뮤PDF 프로'는 자체 개발한 머신러닝 기반 레이아웃 분석기를 적용했다. 문서 구조 자체를 파악하여 데이터로 추출하는 방식으로, VLM 방식을 사용하는 글로벌 유사 제품 대비 약 10배 빠른 속도로 정확한 데이터 처리가 가능하다. 테두리가 없거나 병합 셀 등을 포함한 표 문서, 스캔 이미지와 디지털 데이터가 혼합된 문서 추출에 있어서 독보적인 정확도와 속도를 자랑한다. GPU가 필요한 VLM 방식과 달리 CPU만으로도 동작하여 비용 부담이 적은 것도 강점이다.

'파이뮤 PDF 프로'는 AI 및 빅데이터 구축, 업무 자동화, 이미지 렌더링 등 다양한 문서 작업을 파이선 환경에서 빠르고 정확하게 구현할 수 있는 문서 데이터 추출 라이브러리다. 2016년 첫 출시된 이래 2025년 11월 현재 누적 다운로드 1억2000만건을 돌파했으며, 오라클(Oracle), 보쉬(Bosch), DHL, 도큐싸인(DocuSign), 슈나이더일렉트릭(Schneider Electric) 등 유수의 글로벌 기업 고객을 보유하고 있다.

특히 LLM(대규모 언어 모델, Large Language Models) 및 RAG(검색 증강 생성, Retrieval Augmented Generation) 특화 기능이 눈에 띈다. '파이뮤PDF 프로'는 문서 내 페이지와 위치 등의 메타 데이터를 포함한 청크(Chunk, 말뭉치)를 생성할 수 있으며, 추출한 문서 데이터를 LLM 및 RAG 친화적인 라마인덱스 리더(LlamaIndex Reader) 파일로 출력하는 것도 가능하다. 생성형 AI의 학습 효율을 높이는 것은 물론, 문서 기반 대화형 서비스를 개발하는 데도 유리한 기능. 추출 대상 문서로는 PDF, MS오피스, 한글 문서, 이미지 외 다양한 포맷을 지원한다.

김정아 이파피루스 부사장은 “자체 테스트 결과에 따르면 '파이뮤PDF 프로'는 문서 읽고 쓰기와 텍스트 추출, 문서 렌더링까지 모든 작업에서 글로벌 유사 제품들보다 압도적으로 빠른 속도를 자랑한다”며 “AI 시스템 구축을 위한 필수 도구로서 LLM·RAG 서비스 구현이나 데이터베이스 구축에 드는 시간과 비용을 크게 줄여줄 것”이라고 맣했다.

'파이뮤PDF 프로'의 향상된 레이아웃 분석 성능은 이파피루스 홈페이지에서 체험할 수 있다.

김현민 기자 minkim@etnews.com

Read Entire Article