Los modelos multimodales a gran escala (LMM) se han probado ampliamente en tareas como la respuesta visual a preguntas (VQA), la generación de títulos de imágenes y la puesta a tierra, pero faltan evaluaciones rigurosas de su alineación con los valores centrados en el ser humano (HC), como la equidad, la ética y la inclusión. Para abordar esta brecha, este documento presenta HumaniBench , un nuevo punto de referencia que consta de 32.000 pares de imágenes-preguntas del mundo real y una herramienta de evaluación . Las etiquetas se generan a través de una canalización asistida por IA y son validadas por expertos. HumaniBench evalúa los LMM en una variedad de tareas VQA abiertas y cerradas basadas en siete principios de alineación clave: equidad, ética, empatía, inclusividad, inferencia, robustez y multilingüismo. Estos principios, basados en la ética de la IA y los requisitos prácticos, proporcionan una visión holística del impacto social. Los resultados de las pruebas comparativas realizadas con diversos LMM muestran que los modelos propietarios generalmente superan en inferencia, equidad y multilingüismo, mientras que los modelos de código abierto superan en robustez y fundamento. La mayoría de los modelos tienen dificultades para equilibrar la precisión con un comportamiento ético e inclusivo. Técnicas como la inducción de la cadena de pensamiento y el escalado del tiempo de prueba mejoran la alineación. Como primer punto de referencia diseñado específicamente para la alineación de HC, HumaniBench proporciona un riguroso banco de pruebas para diagnosticar limitaciones y promover el desarrollo responsable de LMM. Todos los datos y el código están disponibles públicamente para su reproducibilidad.