Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

PromptGuard: Moderación de contenido inseguro guiada por indicaciones suaves para modelos de texto a imagen

Created by
  • Haebom

Autor

Lingzhi Yuan, Xinfeng Li, Chejian Xu, Guanhong Tao, Xiaojun Jia, Yihao Huang, Wei Dong, Yang Liu, Bo Li

Describir

A pesar de las recientes mejoras en el rendimiento de los modelos de texto a imagen (T2I), este artículo plantea inquietudes sobre la generación de contenido no apto para el trabajo (NSFW), incluyendo imágenes sexualmente sugestivas, violentas, políticamente sensibles y ofensivas. Para abordar esta cuestión, presentamos PromptGuard, una novedosa técnica de moderación de contenido. Inspirada en el mecanismo de avisos del sistema de los modelos de lenguaje a gran escala (LLM), PromptGuard optimiza los avisos suaves seguros (P*), que funcionan como avisos implícitos del sistema dentro del espacio de incrustación de texto de los modelos T2I. Esto permite la generación segura y realista de imágenes sin comprometer la eficiencia de la inferencia ni requerir modelos proxy. Además, optimizamos los avisos suaves específicos de cada categoría y los integramos para proporcionar orientación sobre seguridad, mejorando la fiabilidad y la usabilidad. Experimentos exhaustivos con cinco conjuntos de datos demuestran que PromptGuard mitiga eficazmente la generación de contenido no apto para el trabajo (NSFW), manteniendo un resultado positivo de alta calidad. Alcanza una velocidad 3,8 veces superior a la de los métodos existentes y reduce la tasa óptima de contenido no seguro al 5,84 %, superando a ocho defensas de vanguardia.

Takeaways, Limitations

Takeaways:
Proporcionar una solución efectiva y eficiente al problema de creación de contenido NSFW del modelo T2I.
Reduce la creación de contenido NSFW a un ritmo mucho más rápido que los métodos existentes.
Se presenta un enfoque novedoso para aplicar mecanismos de estímulo del sistema al modelo T2I.
Lograr un desempeño equilibrado que considere simultáneamente la seguridad y la calidad
Limitations:
Dado que este es un resultado de evaluación de desempeño para un conjunto de datos específico, es necesario verificar la generalización a otros conjuntos de datos o modelos.
Se necesita más investigación sobre la adaptabilidad a nuevos tipos de contenido NSFW.
La necesidad de una mayor transparencia y explicabilidad en el proceso de optimización del software de seguridad.
La tasa de inseguridad del 5,84% no es una solución perfecta y requiere una mejora continua.
👍