Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HumaniBench : un cadre centré sur l'humain pour l'évaluation de grands modèles multimodaux

Created by
  • Haebom

Auteur

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

Contour

Les modèles multimodaux à grande échelle (LMM) ont été largement testés dans des tâches telles que la réponse visuelle aux questions (VQA), la génération de légendes d'images et l'ancrage. Cependant, des évaluations rigoureuses de leur alignement avec des valeurs centrées sur l'humain (HC) telles que l'équité, l'éthique et l'inclusivité font défaut. Pour combler cette lacune, cet article présente HumaniBench , un nouveau benchmark composé de 32 000 paires image-question du monde réel et d'un outil d'évaluation . Les étiquettes sont générées via un pipeline assisté par l'IA et validées par des experts. HumaniBench évalue les LMM sur diverses tâches VQA ouvertes et fermées, en s'appuyant sur sept principes d'alignement clés : l'équité, l'éthique, l'empathie, l'inclusivité, l'inférence, la robustesse et le multilinguisme. Ces principes, fondés sur l'éthique de l'IA et les exigences pratiques, offrent une vision globale de l'impact social. Les résultats de l'analyse comparative de divers LMM montrent que les modèles propriétaires surpassent généralement l'inférence, l'équité et le multilinguisme, tandis que les modèles open source surpassent en termes de robustesse et d'ancrage. La plupart des modèles peinent à concilier précision et comportement éthique et inclusif. Des techniques telles que l'incitation à la chaîne de pensée et l'échelonnement du temps de test améliorent l'alignement. Premier benchmark conçu pour l'alignement HC, HumaniBench offre un banc d'essai rigoureux pour diagnostiquer les limites et promouvoir un développement LMM responsable. L'ensemble des données et du code sont accessibles au public pour une reproductibilité optimale.

Takeaways, Limitations

Takeaways:
Présentation de HumaniBench, le premier benchmark pour l’évaluation rigoureuse des LMM pour l’alignement avec les valeurs centrées sur l’humain.
ÉValuez sept principes d’alignement clés : l’équité, l’éthique, l’empathie, l’inclusivité, le raisonnement, la robustesse et le multilinguisme à travers diverses tâches VQA.
Analyse comparative des forces et des faiblesses des modèles propriétaires et open source.
Nous montrons que des techniques telles que l’incitation à la chaîne de pensée et la mise à l’échelle du temps de test contribuent à améliorer l’alignement des LMM.
Reproductibilité obtenue grâce à la divulgation de toutes les données et de tous les codes.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer l’exhaustivité des considérations éthiques et sociales couvertes par HumaniBench.
Il peut y avoir un biais en faveur de certains modèles ou technologies.
La portée du benchmark est limitée à la tâche VQA. Il doit être étendu à d'autres tâches multimodales.
Une validation supplémentaire de la fiabilité et de la précision du pipeline d’étiquetage assisté par l’IA est nécessaire.
👍