Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HumaniBench: Un marco centrado en el ser humano para la evaluación de grandes modelos multimodales

Created by
  • Haebom

Autor

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

Describir

Los modelos multimodales a gran escala (LMM) se han probado ampliamente en tareas como la respuesta visual a preguntas (VQA), la generación de títulos de imágenes y la puesta a tierra, pero faltan evaluaciones rigurosas de su alineación con los valores centrados en el ser humano (HC), como la equidad, la ética y la inclusión. Para abordar esta brecha, este documento presenta HumaniBench , un nuevo punto de referencia que consta de 32.000 pares de imágenes-preguntas del mundo real y una herramienta de evaluación . Las etiquetas se generan a través de una canalización asistida por IA y son validadas por expertos. HumaniBench evalúa los LMM en una variedad de tareas VQA abiertas y cerradas basadas en siete principios de alineación clave: equidad, ética, empatía, inclusividad, inferencia, robustez y multilingüismo. Estos principios, basados ​​en la ética de la IA y los requisitos prácticos, proporcionan una visión holística del impacto social. Los resultados de las pruebas comparativas realizadas con diversos LMM muestran que los modelos propietarios generalmente superan en inferencia, equidad y multilingüismo, mientras que los modelos de código abierto superan en robustez y fundamento. La mayoría de los modelos tienen dificultades para equilibrar la precisión con un comportamiento ético e inclusivo. Técnicas como la inducción de la cadena de pensamiento y el escalado del tiempo de prueba mejoran la alineación. Como primer punto de referencia diseñado específicamente para la alineación de HC, HumaniBench proporciona un riguroso banco de pruebas para diagnosticar limitaciones y promover el desarrollo responsable de LMM. Todos los datos y el código están disponibles públicamente para su reproducibilidad.

Takeaways, Limitations

Takeaways:
Presentamos HumaniBench, el primer punto de referencia para la evaluación rigurosa de LMM para su alineación con valores centrados en el ser humano.
Evalúe siete principios clave de alineación: equidad, ética, empatía, inclusión, razonamiento, solidez y multilingüismo a través de varias tareas de VQA.
Análisis comparativo de las fortalezas y debilidades de los modelos propietarios y de código abierto.
Demostramos que técnicas como la estimulación de la cadena de pensamiento y el escalamiento del tiempo de prueba contribuyen a mejorar la alineación de los LMM.
Reproducibilidad lograda mediante la divulgación de todos los datos y códigos.
Limitations:
Se necesitan más investigaciones para determinar la exhaustividad de las consideraciones éticas y sociales cubiertas por HumaniBench.
Puede haber un sesgo hacia ciertos modelos o tecnologías.
El alcance del punto de referencia se limita a la tarea de VQA. Es necesario ampliarlo a otras tareas multimodales.
Se necesita una mayor validación de la confiabilidad y precisión del proceso de etiquetado asistido por IA.
👍