Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HumaniBench : un cadre centré sur l'humain pour l'évaluation de grands modèles multimodaux

Created by
  • Haebom

Auteur

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

Contour

Cet article aborde le manque d'évaluation rigoureuse de l'alignement des modèles multimodaux à grande échelle (MML) avec les valeurs centrées sur l'humain (HC) (par exemple, l'équité, l'éthique et l'inclusivité) et propose un nouveau benchmark, HumaniBench, pour y remédier. HumaniBench se compose de 32 000 paires image-question du monde réel et d'un outil d'évaluation, avec des étiquettes générées par un pipeline assisté par IA et une vérification par des experts. Les MML sont évalués sur une variété de tâches VQA ouvertes et fermées, autour de sept principes d'alignement fondamentaux : l'équité, l'éthique, l'empathie, l'inclusivité, l'inférence, la robustesse et le multilinguisme. Les résultats du benchmark pour divers MML montrent que les modèles propriétaires surpassent généralement en termes d'inférence, d'équité et de multilinguisme, tandis que les modèles open source excellent en termes de robustesse et de construction de fondations. La plupart des modèles peinent à concilier précision et comportement éthique et inclusif. Des techniques telles que l'incitation par chaîne de pensée et la mise à l'échelle du temps de test améliorent l'alignement. HumaniBench est le premier benchmark conçu pour l'alignement HC, fournissant un banc d'essai rigoureux pour diagnostiquer les limitations et promouvoir un développement LMM responsable, avec toutes les données et le code ouvertement disponibles pour la reproductibilité.

Takeaways, Limitations_

Takeaways:
Présentation de critères d’évaluation rigoureux pour l’alignement des valeurs centrées sur l’humain de LMM.
Un nouveau benchmark appelé HumaniBench évalue de manière exhaustive l’équité, l’éthique et l’inclusivité des LMM.
Nous suggérons que des techniques telles que l’incitation à la chaîne de pensée et la mise à l’échelle du temps de test sont efficaces pour améliorer l’alignement des valeurs centrées sur l’humain dans les LMM.
Analyse comparative des forces et des faiblesses des modèles propriétaires et open source pour suggérer des orientations pour le développement du LMM.
Assurer la reproductibilité de la recherche par la divulgation de toutes les données et de tous les codes.
Limitations:
Malgré les pipelines activés par l’IA et la validation par des experts, le processus d’étiquetage reste sujet à la subjectivité et au risque d’erreur.
La généralisation est limitée en raison des limitations des types et du nombre de LMM inclus dans le benchmark actuel.
La nécessité de prendre en compte des valeurs centrées sur l’humain supplémentaires au-delà des sept principes fondamentaux.
Manque de solutions au problème de l’équilibre entre la précision et un comportement éthique et inclusif.
👍