Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

R-4B : Encourager la capacité d'auto-réflexion à usage général dans les MLLM via le recuit bimode et l'apprentissage renforcé

Created by
  • Haebom

Auteur

Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng, Jie Jiang

Contour

Pour remédier aux inefficacités des modèles linguistiques multimodaux à grande échelle (MLLM) dotés de capacités de réflexion étape par étape qui excellent dans la résolution de problèmes d'inférence complexes, cet article propose R-4B, un MLLM à réflexion autonome qui détermine de manière adaptative s'il faut activer la réflexion en fonction de la complexité du problème. R-4B utilise le recuit bimodal pour intégrer les capacités de réflexion et de non-réflexion, et applique l'optimisation bimodale des politiques (BPO) pour améliorer la précision du modèle dans la détermination de l'activation des processus de réflexion. À l'aide d'un ensemble de données soigneusement organisé couvrant divers sujets, le modèle est entraîné en incluant des échantillons des modes de réflexion et de non-réflexion. Une deuxième étape d'entraînement, dans un cadre GRPO amélioré, force le modèle de politique à générer des réponses dans les deux modes pour chaque requête d'entrée. Les résultats expérimentaux montrent que R-4B atteint des performances de pointe sur 25 benchmarks difficiles, surpassant Qwen2.5-VL-7B sur la plupart des tâches, et atteint des performances comparables à des modèles plus grands tels que Kimi-VL-A3B-Thinking-2506 (16B) sur des benchmarks à forte intensité d'inférence, mais à un coût de calcul inférieur.

Takeaways, Limitations

Takeaways:
Nous démontrons l’utilité d’une architecture MLLM de pensée automatique qui détermine de manière adaptative s’il faut penser ou non en fonction de la complexité du problème.
Nous proposons que le processus de réflexion étape par étape inefficace du MLLM existant puisse être amélioré pour améliorer les performances tout en réduisant les coûts de calcul.
Contribue au développement de MLLM légers en obtenant des performances similaires à celles des modèles à grande échelle avec des paramètres limités.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité des cadres BPO et GRPO proposés.
Puisqu’il s’agit d’une évaluation des performances pour un ensemble de données spécifique, il est nécessaire de vérifier les performances de généralisation pour d’autres domaines ou tâches.
Manque de clarté sur les types de problèmes pour lesquels le R-4B utilise le mode non-pensant et les types de problèmes pour lesquels il utilise le mode pensant.
👍