Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Metis-RISE : le RL incite et le SFT améliore l'apprentissage par modèle de raisonnement multimodal

Created by
  • Haebom

Auteur

Haibo Qiu, Xiaohan Lan, Fanfan Liu, Xiaohu Sun, Delian Ruan, Peng Shi, Lin Ma

Contour

Dans cet article, nous proposons Metis-RISE, une nouvelle méthode d'apprentissage visant à améliorer la capacité d'inférence des modèles linguistiques multimodaux à grande échelle (MLLM). Pour remédier aux problèmes d'inefficacité d'échantillonnage et d'absence d'inférence des méthodes existantes basées sur l'apprentissage par renforcement (RL), ainsi qu'aux limitations de capacité d'exploration et aux problèmes de convergence sous-optimale des approches pipelinées utilisant l'RL après un réglage fin supervisé (SFT), Metis-RISE commence par l'étape d'RL pour activer la capacité d'inférence latente du modèle. Ensuite, le problème d'échantillonnage de trajectoires inefficace découvert lors de l'étape d'RL est résolu en utilisant des trajectoires d'inférence auto-distillées, et le problème d'absence d'inférence est résolu par l'injection de connaissances expertes. Nous développons deux versions de MLLM avec des paramètres 7B et 72B, et obtenons des performances de pointe sur le classement OpenCompass Multimodal Reasoning Leaderboard.

Takeaways, Limitations_

Takeaways:
Nous présentons une nouvelle approche pour activer efficacement la capacité d'inférence potentielle du modèle en exploitant d'abord le RL.
Présente une stratégie pour résoudre efficacement les problèmes qui surviennent au stade RL (échantillonnage de trajectoire inefficace et manque de capacité d'inférence).
Améliorez l’efficacité de l’étape SFT grâce à l’autodistillation et à l’infusion de connaissances d’experts.
Démontrer l'efficacité de Metis-RISE en obtenant des performances supérieures sur le classement du raisonnement multimodal OpenCompass.
Limitations:
Bien que le modèle 72B soit classé 4e au classement général, une analyse plus approfondie est nécessaire sur l'écart de performance par rapport aux modèles supérieurs.
D’autres études sont nécessaires pour étudier les performances de généralisation de la méthode proposée et son applicabilité à diverses tâches.
Des critères d’évaluation objectifs et des mesures d’assurance de la fiabilité pour l’intégration des connaissances spécialisées sont nécessaires.
👍