Jiarui Zhang, Yuliang Liu, Zijun Wu, Guosheng Pang, Zhili Ye, Yupei Zhong, Junteng Ma, Tao Wei, Haiyang Xu, Weikai Chen, Zeen Wang, Qiangjun Ji, Fanxi Zhou, Qi Zhang, Yuanrui Hu, Jiahao Liu, Zhang Li, Ziyang Zhang, Qiang Liu, Xiang Bai
MonkeyOCR v1.5: A Unified Vision-Language Framework for Document Parsing
개요
본 논문은 문서 지능의 핵심 과제인 문서 파싱을 위한 통합 비전-언어 프레임워크인 MonkeyOCR v1.5를 소개합니다. 이 프레임워크는 복잡한 레이아웃, 다단계 테이블, 이미지, 수식, 그리고 페이지 간 구조를 가진 실제 문서들을 처리하는 데 초점을 맞추고 있습니다. MonkeyOCR v1.5는 두 단계 파싱 파이프라인을 사용하여 레이아웃 이해와 내용 인식을 향상시킵니다. 첫 번째 단계에서는 대규모 멀티모달 모델을 활용하여 문서 레이아웃과 읽기 순서를 예측하고, 두 번째 단계에서는 감지된 영역 내에서 텍스트, 수식, 테이블을 지역적으로 인식합니다. 복잡한 테이블 구조를 처리하기 위해 시각적 일관성 기반 강화 학습 기법과 이미지 분리 테이블 파싱 및 유형 기반 테이블 병합 모듈을 제안합니다. OmniDocBench v1.5 실험을 통해 MonkeyOCR v1.5가 기존 시스템인 PPOCR-VL 및 MinerU 2.5를 능가하는 최고 성능을 달성했으며, 시각적으로 복잡한 문서 시나리오에서 뛰어난 견고성을 보임을 입증했습니다.
시사점, 한계점
•
시사점:
◦
복잡한 문서 구조를 효과적으로 처리하는 통합 비전-언어 프레임워크 제시.
◦
시각적 일관성 기반 강화 학습을 통한 테이블 구조 정확도 향상.
◦
이미지, 페이지/열 간 분할 테이블 처리 위한 특화 모듈 개발.
◦
기존 시스템 대비 우수한 성능과 견고성 입증.
•
한계점:
◦
논문에서 구체적인 한계점에 대한 언급은 없음. (추가 연구 및 실험을 통해 밝혀질 수 있음)