본 논문은 디지털화의 빠른 발전으로 문서 이미지의 내용 파싱에 대한 필요성이 증대됨에 따라, 엔드-투-엔드 문서 이미지 이해를 위한 새로운 다중 모달 대규모 언어 모델인 PP-DocBee를 제시한다. 문서 시나리오에 맞춘 데이터 합성 전략을 통해 다양한 데이터셋을 구축하여 모델의 일반화 성능을 향상시키고, 동적 비례 샘플링, 데이터 전처리, OCR 후처리 전략 등의 몇 가지 훈련 기법을 적용하였다. 실험 결과, PP-DocBee는 영어 문서 이해 벤치마크에서 최첨단 성능을 달성했으며, 중국어 문서 이해에서도 기존 오픈소스 및 상용 모델들을 능가하는 성능을 보였다. 소스 코드와 사전 훈련된 모델은 공개적으로 제공된다.