본 논문은 디지털화의 빠른 발전에 따라 문서 이미지의 빠르고 정확한 내용 파싱에 대한 요구가 증가함에 따라, 엔드-투-엔드 문서 이미지 이해를 위한 새로운 다중 모달 대규모 언어 모델인 PP-DocBee를 제시합니다. 문서 시나리오에 맞춘 데이터 합성 전략을 통해 다양한 데이터셋을 구축하여 모델의 일반화 성능을 향상시키고, 동적 비례 샘플링, 데이터 전처리, OCR 후처리 전략 등의 몇 가지 훈련 기법을 적용했습니다. 광범위한 평가 결과, PP-DocBee는 영어 문서 이해 벤치마크에서 최첨단 성능을 달성했으며, 중국어 문서 이해에서도 기존 오픈소스 및 상용 모델보다 우수한 성능을 보였습니다. 소스 코드와 사전 훈련된 모델은 공개적으로 제공됩니다.