Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Renforcer les VLM pour utiliser des outils de raisonnement visuel détaillé sous contraintes de ressources

Created by
  • Haebom

Auteur

Sunil Kumar, Bowen Zhao, Leo Dirac, Paulina Varshavskaya

Contour

Cet article présente une méthode permettant d'améliorer la capacité de raisonnement visuel détaillé des modèles de langage visuel (MLV), même dans des conditions de calcul limitées. Inspirés par Deepseek-r1, nous entraînons de petits modèles à l'aide de l'optimisation des politiques relatives de groupe (GRPO) et exploitons des outils externes tels que Zoom. Nous obtenons les meilleurs résultats en combinant l'entraînement GRPO, une structure de récompense simple, une interface d'appel d'outils simplifiée, l'allocation de jetons supplémentaires pour les résultats des appels d'outils et un mélange de données d'entraînement surreprésentant les exemples visuellement complexes. Par conséquent, nous obtenons de meilleures performances sur certaines tâches de questions-réponses visuelles (QV) par rapport à des modèles de référence de taille similaire, grâce aux informations visuelles détaillées collectées à partir d'outils externes.

Takeaways, Limitations

Takeaways:
Suggérant la possibilité d'améliorer la capacité de raisonnement visuel des VLM avec des ressources informatiques limitées.
Présentation de stratégies d’apprentissage efficaces grâce à l’utilisation de GRPO et d’outils externes.
Preuve de l’utilité des ensembles de données qui surreprésentent des exemples visuellement difficiles.
Améliorer les performances VQA en collectant des informations visuelles détaillées à l'aide d'outils externes.
Limitations:
Seules les améliorations de performances pour des tâches VQA spécifiques sont présentées, et la généralisabilité aux améliorations de performances pour les VLM généraux peut être limitée.
ÉTant donné que les outils externes utilisés se limitent au zoom, des recherches supplémentaires sont nécessaires sur l’utilisation de divers outils externes.
L’efficacité de la méthode proposée peut dépendre d’ensembles de données et de paramètres spécifiques.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d’autres architectures VLM ou à des tâches de raisonnement visuel plus complexes.
👍