Este documento aborda la falta de una evaluación rigurosa de la alineación de los modelos multimodales a gran escala (LMM) con los valores centrados en el ser humano (SC) (p. ej., equidad, ética e inclusión) y propone un nuevo punto de referencia, HumaniBench, para abordar esto. HumaniBench consta de 32.000 pares de imágenes-preguntas del mundo real y una herramienta de evaluación, con etiquetas generadas a través de un proceso de procesamiento asistido por IA y verificación experta. Los LMM se evalúan en una variedad de tareas VQA abiertas y cerradas a través de siete principios de alineación centrales: equidad, ética, empatía, inclusión, inferencia, robustez y multilingüismo. Los resultados de referencia para varios LMM muestran que los modelos propietarios generalmente superan en inferencia, equidad y multilingüismo, mientras que los modelos de código abierto sobresalen en robustez y construcción de fundaciones. La mayoría de los modelos luchan por equilibrar la precisión con el comportamiento ético e inclusivo. Técnicas como la incitación en cadena de pensamiento y el escalado del tiempo de prueba mejoran la alineación. HumaniBench es el primer punto de referencia diseñado para la alineación de HC y proporciona un banco de pruebas riguroso para diagnosticar limitaciones y promover el desarrollo responsable de LMM, con todos los datos y códigos disponibles abiertamente para su reproducibilidad.