PP-DocLayout: A Unified Document Layout Detection Model to Accelerate Large-Scale Data Construction
Created by
Haebom
Category
Empty
저자
Ting Sun, Cheng Cui, Yuning Du, Yi Liu
개요
본 논문은 다양한 문서 유형에서의 레이아웃 분석의 어려움을 해결하기 위해 고정밀도와 효율성을 달성하는 PP-DocLayout 모델을 제시합니다. PP-DocLayout은 23가지 유형의 레이아웃 영역을 인식하며, 크기에 따라 세 가지 모델(PP-DocLayout-L, PP-DocLayout-M, PP-DocLayout-S)을 제공합니다. PP-DocLayout-L은 높은 정밀도(mAP@0.5 90.4%)를, PP-DocLayout-S는 높은 효율성(T4 GPU 기준 페이지당 8.1ms 추론 시간)을 목표로 합니다. PP-DocLayout-M은 정밀도와 효율성 간의 균형을 맞춘 모델입니다. 본 연구는 고품질 학습 데이터 생성 방법 또한 제공하여 문서 지능 및 다중 모드 AI 시스템 발전에 기여합니다. 소스 코드와 모델은 GitHub에서 공개됩니다.
시사점, 한계점
•
시사점:
◦
다양한 문서 유형에 대한 높은 정확도의 레이아웃 분석 성능 달성.
◦
리소스 제약 환경 및 실시간 애플리케이션을 위한 효율적인 모델 제공.
◦
고품질 학습 데이터 생성 방법 제시.
◦
문서 지능 및 다중 모달 AI 시스템 발전에 기여.
◦
오픈소스를 통한 접근성 향상.
•
한계점:
◦
특정 유형의 복잡한 레이아웃에 대한 성능은 추가적인 평가가 필요할 수 있음.
◦
모델의 일반화 능력에 대한 더욱 심도있는 분석이 필요할 수 있음.
◦
CPU 환경에서의 추론 속도는 GPU 환경에 비해 상대적으로 느림. (PP-DocLayout-S 기준)