Dans cet article, nous proposons Metis-RISE, une nouvelle méthode d'apprentissage visant à améliorer la capacité d'inférence des modèles linguistiques multimodaux à grande échelle (MLLM). Pour remédier aux problèmes d'inefficacité d'échantillonnage et d'absence d'inférence des méthodes existantes basées sur l'apprentissage par renforcement (RL), ainsi qu'aux limitations de capacité d'exploration et aux problèmes de convergence sous-optimale des approches pipelinées utilisant l'RL après un réglage fin supervisé (SFT), Metis-RISE commence par l'étape d'RL pour activer la capacité d'inférence latente du modèle. Ensuite, le problème d'échantillonnage de trajectoires inefficace découvert lors de l'étape d'RL est résolu en utilisant des trajectoires d'inférence auto-distillées, et le problème d'absence d'inférence est résolu par l'injection de connaissances expertes. Nous développons deux versions de MLLM avec des paramètres 7B et 72B, et obtenons des performances de pointe sur le classement OpenCompass Multimodal Reasoning Leaderboard.