Les modèles multimodaux à grande échelle (LMM) ont été largement testés dans des tâches telles que la réponse visuelle aux questions (VQA), la génération de légendes d'images et l'ancrage. Cependant, des évaluations rigoureuses de leur alignement avec des valeurs centrées sur l'humain (HC) telles que l'équité, l'éthique et l'inclusivité font défaut. Pour combler cette lacune, cet article présente HumaniBench , un nouveau benchmark composé de 32 000 paires image-question du monde réel et d'un outil d'évaluation . Les étiquettes sont générées via un pipeline assisté par l'IA et validées par des experts. HumaniBench évalue les LMM sur diverses tâches VQA ouvertes et fermées, en s'appuyant sur sept principes d'alignement clés : l'équité, l'éthique, l'empathie, l'inclusivité, l'inférence, la robustesse et le multilinguisme. Ces principes, fondés sur l'éthique de l'IA et les exigences pratiques, offrent une vision globale de l'impact social. Les résultats de l'analyse comparative de divers LMM montrent que les modèles propriétaires surpassent généralement l'inférence, l'équité et le multilinguisme, tandis que les modèles open source surpassent en termes de robustesse et d'ancrage. La plupart des modèles peinent à concilier précision et comportement éthique et inclusif. Des techniques telles que l'incitation à la chaîne de pensée et l'échelonnement du temps de test améliorent l'alignement. Premier benchmark conçu pour l'alignement HC, HumaniBench offre un banc d'essai rigoureux pour diagnostiquer les limites et promouvoir un développement LMM responsable. L'ensemble des données et du code sont accessibles au public pour une reproductibilité optimale.