Dans cet article, nous présentons PP-DocBee, un nouveau modèle linguistique multimodal à grande échelle pour la compréhension intégrale des images de documents. Il répond au besoin croissant d'analyse de contenu des images de documents, lié au développement rapide de la numérisation. Nous construisons divers ensembles de données grâce à des stratégies de synthèse de données adaptées aux scénarios documentaires afin d'améliorer les performances de généralisation du modèle. Nous appliquons également plusieurs techniques d'apprentissage, telles que l'échantillonnage proportionnel dynamique, le prétraitement des données et le post-traitement OCR. Les résultats expérimentaux montrent que PP-DocBee atteint des performances de pointe dans les tests de compréhension de documents en anglais et surpasse les modèles open source et commerciaux existants pour la compréhension de documents en chinois. Le code source et les modèles pré-entraînés sont accessibles au public.