Dans cet article, nous nous intéressons au fait que les récents modèles linguistiques multimodaux à grande échelle (MLLM) échouent souvent par manque de connaissances pertinentes dans des tâches rares et spécifiques à un domaine. Nous construisons un graphe de connaissances multimodal (MH-MMKG) ciblant Monster Hunter: World comme banc d'essai en utilisant les capacités de reconnaissance visuelle de jeux. MH-MMKG contient diverses modalités et des relations d'entités complexes, et nous concevons un ensemble de questions difficiles basées sur celui-ci pour évaluer les capacités complexes de récupération et d'inférence de connaissances du modèle. De plus, nous proposons un moteur de recherche multi-agents pour permettre au modèle de récupérer de manière autonome les connaissances pertinentes sans formation supplémentaire. Les résultats expérimentaux démontrent que l'approche proposée améliore significativement les performances du MLLM, offrant une nouvelle perspective sur l'inférence augmentée de connaissances multimodales et jetant des bases solides pour les recherches futures.