Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
CHIRP : une référence précise pour l'évaluation des réponses ouvertes dans les modèles vision-langage
Created by
Haebom
Auteur
Alexis Roger, Prateek Humane, Daniel Z. Kaplan, Kshitij Gupta, Qi Sun, George Adamopoulos, Jonathan Siu Chi Lim, Quentin Anthony, Edwin Fennell, Irina Rish
Contour
Cet article souligne la nécessité de méthodes d'évaluation et de benchmarks rigoureux et complets pour le domaine en pleine expansion des modèles vision-langage (VLM). Nous analysons les techniques d'évaluation VLM existantes (notamment les métriques automatisées, les évaluations basées sur l'IA et les évaluations humaines pour diverses tâches) et présentons Robin, une nouvelle suite VLM conçue en combinant LLM et VE à différentes échelles. En exploitant Robin, nous identifions les limites des méthodes d'évaluation existantes à grande échelle et proposons CHIRP, un nouveau benchmark à réponse longue pour des évaluations VLM plus robustes et plus complètes, afin de surmonter ces limites. Nous offrons un accès libre au code d'entraînement, à la suite de modèles et aux benchmarks CHIRP de Robin afin d'améliorer la reproductibilité et de faire progresser la recherche sur les VLM.
Takeaways, Limitations
•
Takeaways:
◦
Contribuer à l'avancement de la recherche VLM en analysant les Limitations des méthodes d'évaluation VLM existantes par échelle et en proposant une nouvelle référence, CHIRP, pour les surmonter.
◦
Nous proposons Robin, une nouvelle suite VLM qui combine des LLM et des VE de différentes échelles, pour augmenter la reproductibilité des études VLM.
◦
Contribuer à la communauté de recherche VLM via le benchmark CHIRP et la publication du modèle et du code Robin.
•
Limitations:
◦
Un examen plus approfondi de l’échelle et de la diversité de l’indice de référence CHIRP pourrait être nécessaire.
◦
Une analyse plus approfondie peut être nécessaire pour déterminer les performances du modèle Robin par rapport aux autres VLM.
◦
Il se peut que des descriptions détaillées et des analyses de fiabilité des évaluations humaines fassent défaut.