Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ruido arcoíris: Prueba de estrés de detectores multimodales de memes dañinos en contenido LGBTQ

Created by
  • Haebom

Autor

Ran Tong, Songtao Wei, Jiaqi Liu, Lanruo Wang

Describir

Este artículo aborda el problema de los memes de odio dirigidos a la comunidad LGBTQ+ que evaden los sistemas de detección incluso con alteraciones mínimas en los subtítulos o las imágenes. Utilizando el conjunto de datos PrideMM, construimos el primer benchmark de robustez combinando cuatro ataques realistas a subtítulos y tres corrupciones comunes de imágenes. Utilizando dos detectores de vanguardia, MemeCLIP y MemeBLIP2, como casos de estudio, presentamos un Adaptador de Eliminación de Ruido de Texto (TDA) ligero que mejora la resiliencia de MemeBLIP2. Los resultados experimentales muestran que MemeCLIP se degrada con mayor suavidad, mientras que MemeBLIP2 es particularmente sensible a la edición de subtítulos que interfiere con el procesamiento del lenguaje. Sin embargo, añadir TDA no solo soluciona esta debilidad, sino que también convierte a MemeBLIP2 en el modelo más robusto en general. Un análisis más detallado revela que, si bien todos los sistemas dependen en gran medida del texto, la elección de la arquitectura y los datos de preentrenamiento impactan significativamente la robustez. Este benchmark destaca las vulnerabilidades en los modelos de seguridad multimodal actuales y demuestra que los módulos ligeros y específicos como TDA son una forma efectiva de lograr defensas más sólidas.

Takeaways, Limitations

Takeaways:
Destacamos los desafíos de detectar memes de odio dirigidos a la comunidad LGBTQ+ y la necesidad de desarrollar modelos sólidos para abordarlos.
Comparamos y analizamos las fortalezas y debilidades de MemeCLIP y MemeBLIP2 para sugerir futuras direcciones de desarrollo de modelos.
Demostramos que la robustez de los modelos de seguridad multimodal se puede mejorar mediante módulos TDA ligeros.
Destacamos la importancia de la selección de la arquitectura y los datos de preentrenamiento en la robustez de los modelos multimodales.
Limitations:
Dada la dependencia del conjunto de datos PrideMM, se necesita más investigación para determinar la generalización a otros conjuntos de datos.
Puede limitarse a una evaluación de un tipo específico de ataque, en lugar de una evaluación exhaustiva de todos los tipos de ataques.
La eficacia del TDA puede estar limitada a modelos y conjuntos de datos específicos, y se necesita más investigación para determinar su generalización a otros modelos y conjuntos de datos.
👍