[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Quién ve la seguridad? Un conjunto de datos de análisis profundo para la alineación pluralista de modelos de texto a imagen

Created by
  • Haebom

Autor

Charvi Rastogi, Tian Huey Teh, Pushkar Mishra, Roma Patel, Ding Wang, Mark D iaz, Alicia Parrish, Aida Mostafazadeh Davani, Zoe Ashwood, Michela Paganini, Vinodkumar Prabhakaran, Verena Rieser, Lora Aroyo

Describir

Este artículo aborda las limitaciones de los modelos de texto a imagen (T2I) existentes que no tienen en cuenta las diversas experiencias humanas y propone una "alineación pluralista" que permite comprender y reconciliar valores humanos diversos y a menudo conflictivos. Con este fin, proporcionamos tres contribuciones principales. Primero, presentamos un nuevo conjunto de datos multimodales para la Evaluación Visual Interseccional Diversa (DIVE), que permite una alineación profunda entre diversas perspectivas de seguridad a través de un gran número de evaluadores demográficamente transversales que proporcionaron una amplia retroalimentación sobre 1000 indicaciones. Segundo, confirmamos empíricamente que las características demográficas son indicadores importantes de las diversas perspectivas en este dominio y revelan diferencias significativas dependientes del contexto en la percepción del daño que son diferentes de las evaluaciones existentes. Tercero, discutimos Takeaways para construir modelos T2I alineados, incluyendo estrategias eficientes de recopilación de datos, funciones de juicio LLM y posibilidades de conciliación de modelos para diversas perspectivas. Este estudio proporciona una herramienta fundamental para sistemas T2I más justos y alineados.

Takeaways, Limitations

Takeaways:
Presentación del concepto de alineación pluralista que toma en cuenta diversos valores humanos y énfasis en su importancia
Proporcionar un nuevo conjunto de datos multimodales para la evaluación visual transversal diversa (DIVE)
Confirmación empírica de que las características demográficas son variables sustitutas importantes en la evaluación de seguridad del modelo T2I
Sugerir una dirección para construir un modelo T2I mejorado presentando una estrategia de recopilación de datos eficiente, una función de juicio LLM y la posibilidad de ajuste del modelo
Proporcionar una herramienta fundamental para construir un sistema T2I más justo y alineado
Limitations:
Como se menciona en el documento, contiene contenido sensible y por lo tanto tiene el potencial de causar daño.
Se necesita una validación adicional de la escala y generalización del conjunto de datos DIVE.
Se necesita investigación adicional sobre la aplicación y la eficacia de la metodología propuesta en modelos T2I reales.
Falta de detalles técnicos específicos sobre las funciones de juicio LLM y la capacidad de ajuste del modelo.
👍