Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PyVision : vision agentique avec outils dynamiques

Created by
  • Haebom

Auteur

Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei

Contour

Cet article présente PyVision, un framework interactif multi-tours permettant de surmonter les limitations des modèles de langage à grande échelle (LLM) en raisonnement visuel. PyVision permet une résolution de problèmes flexible et interprétable en permettant aux LLM de générer, d'exécuter et d'affiner de manière autonome des outils Python adaptés à une tâche donnée. Nous développons une taxonomie des outils générés par PyVision et analysons leur utilisation dans différents benchmarks. Les résultats expérimentaux démontrent que PyVision réalise des gains de performances constants, notamment une amélioration de 7,8 % des performances de V* sur GPT-4.1 et de 31,1 % des performances de VLMsAreBlind-mini sur Claude-4.0-Sonnet. Cela suggère que l'utilisation dynamique d'outils permet aux modèles d'aller au-delà de la simple utilisation d'outils pour les inventer, conduisant à un raisonnement visuel plus autonome.

Takeaways, Limitations_

Takeaways:
Améliorations des performances du raisonnement visuel basé sur LLM : les performances de raisonnement visuel des modèles GPT-4.1 et Claude-4.0-Sonnet ont été améliorées avec PyVision.
Présentation de la possibilité de création et d'utilisation d'outils dynamiques : Le LLM présente un nouveau paradigme pour la création et l'utilisation d'outils selon les besoins.
Résolution de problèmes flexible et interprétable : PyVision permet un raisonnement visuel plus flexible et interprétable.
Potentiel de développement vers un système de raisonnement visuel autodirigé : Le LLM démontre le potentiel d'évolution au-delà de la simple utilisation d'outils pour devenir un système plus autodirigé qui génère et utilise des outils pour résoudre des problèmes.
Limitations :
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de PyVision et son applicabilité à divers problèmes d'inférence visuelle.
Limitations d'évolutivité dues à la dépendance aux outils basés sur Python.
La sécurité et la fiabilité de l’outil généré doivent être vérifiées.
Il s’agit de résultats d’évaluation pour des modèles spécifiques (GPT-4.1, Claude-4.0-Sonnet), et des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à d’autres modèles.
👍