Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

HumaniBench: Un marco centrado en el ser humano para la evaluación de grandes modelos multimodales

Created by
  • Haebom

Autor

Shaina Raza, Aravind Narayanan, Vahid Reza Khazaie, Ashmal Vayani, Mukund S. Chettiar, Amandeep Singh, Mubarak Shah, Deval Pandya

Describir

Este documento aborda la falta de una evaluación rigurosa de la alineación de los modelos multimodales a gran escala (LMM) con los valores centrados en el ser humano (SC) (p. ej., equidad, ética e inclusión) y propone un nuevo punto de referencia, HumaniBench, para abordar esto. HumaniBench consta de 32.000 pares de imágenes-preguntas del mundo real y una herramienta de evaluación, con etiquetas generadas a través de un proceso de procesamiento asistido por IA y verificación experta. Los LMM se evalúan en una variedad de tareas VQA abiertas y cerradas a través de siete principios de alineación centrales: equidad, ética, empatía, inclusión, inferencia, robustez y multilingüismo. Los resultados de referencia para varios LMM muestran que los modelos propietarios generalmente superan en inferencia, equidad y multilingüismo, mientras que los modelos de código abierto sobresalen en robustez y construcción de fundaciones. La mayoría de los modelos luchan por equilibrar la precisión con el comportamiento ético e inclusivo. Técnicas como la incitación en cadena de pensamiento y el escalado del tiempo de prueba mejoran la alineación. HumaniBench es el primer punto de referencia diseñado para la alineación de HC y proporciona un banco de pruebas riguroso para diagnosticar limitaciones y promover el desarrollo responsable de LMM, con todos los datos y códigos disponibles abiertamente para su reproducibilidad.

Takeaways, Limitations

Takeaways:
Presentamos criterios de evaluación rigurosos para la alineación de valores centrada en el ser humano de LMM.
Un nuevo punto de referencia llamado HumaniBench evalúa exhaustivamente la imparcialidad, la ética y la inclusión de los LMM.
Sugerimos que técnicas como la estimulación en cadena de pensamiento y el escalamiento del tiempo de prueba son eficaces para mejorar la alineación de valores centrada en el ser humano en los LMM.
Análisis comparativo de las fortalezas y debilidades de los modelos propietarios y de código abierto para sugerir direcciones para el desarrollo de LMM.
Garantizar la reproducibilidad de la investigación mediante la divulgación de todos los datos y códigos.
Limitations:
A pesar de las canalizaciones habilitadas por IA y la validación de expertos, el proceso de etiquetado sigue estando sujeto a la subjetividad y al potencial de error.
La generalización es limitada debido a las limitaciones en los tipos y la cantidad de LMM incluidos en el punto de referencia actual.
La necesidad de considerar valores adicionales centrados en el ser humano más allá de los siete principios fundamentales.
Falta de soluciones al problema de equilibrar la precisión con el comportamiento ético e inclusivo.
👍