Cet article aborde le manque d'évaluation rigoureuse de l'alignement des modèles multimodaux à grande échelle (MML) avec les valeurs centrées sur l'humain (HC) (par exemple, l'équité, l'éthique et l'inclusivité) et propose un nouveau benchmark, HumaniBench, pour y remédier. HumaniBench se compose de 32 000 paires image-question du monde réel et d'un outil d'évaluation, avec des étiquettes générées par un pipeline assisté par IA et une vérification par des experts. Les MML sont évalués sur une variété de tâches VQA ouvertes et fermées, autour de sept principes d'alignement fondamentaux : l'équité, l'éthique, l'empathie, l'inclusivité, l'inférence, la robustesse et le multilinguisme. Les résultats du benchmark pour divers MML montrent que les modèles propriétaires surpassent généralement en termes d'inférence, d'équité et de multilinguisme, tandis que les modèles open source excellent en termes de robustesse et de construction de fondations. La plupart des modèles peinent à concilier précision et comportement éthique et inclusif. Des techniques telles que l'incitation par chaîne de pensée et la mise à l'échelle du temps de test améliorent l'alignement. HumaniBench est le premier benchmark conçu pour l'alignement HC, fournissant un banc d'essai rigoureux pour diagnostiquer les limitations et promouvoir un développement LMM responsable, avec toutes les données et le code ouvertement disponibles pour la reproductibilité.