Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Defensa de los LVLM contra ataques visuales mediante supervisión de percepción parcial

Created by
  • Haebom

Autor

Qi Zhou, Tianlin Li, Qing Guo, Dongxia Wang, Yun Lin, Yang Liu, Jin Song Dong

Describir

Este artículo aborda la vulnerabilidad de los modelos de lenguaje de visión a gran escala (LVLM) a imágenes de entrada inyectadas o alteradas maliciosamente. Los métodos de defensa existentes abordan ataques visuales susceptibles a la modificación de imágenes (recorte parcial), pero dichas modificaciones generan imágenes parciales y distorsionan la semántica, degradando la calidad de las respuestas a imágenes limpias después de la votación. En lugar de utilizar directamente respuestas de imágenes parciales para la votación, este artículo propone un método para supervisar las respuestas de los LVLM a las imágenes originales. Proponemos un enfoque de caja negra, sin entrenamiento, denominado supervisión con conciencia parcial (DPS), que utiliza las respuestas generadas por un modelo que reconoce solo imágenes parciales para proporcionarle indicaciones. La DPS permite al modelo ajustar sus respuestas en función de su comprensión parcial de imágenes cuando es atacado, a la vez que mantiene con seguridad sus respuestas originales para entradas limpias. Los resultados experimentales demuestran que un modelo débil puede supervisar a un modelo fuerte. El modelo fuerte, bajo ataque, pierde confianza y adapta sus respuestas en función de la comprensión parcial del modelo débil, defendiéndose eficazmente contra los ataques. En seis conjuntos de datos y tres modelos populares, demostramos una reducción promedio del 76,3 % en la tasa de éxito de los ataques.

Takeaways, Limitations

Takeaways:
Presentamos una nueva técnica de defensa contra ataques adversarios a modelos de lenguaje de visión a gran escala aprovechando información parcial de la imagen.
Superamos las limitaciones de los métodos de defensa basados ​​en votación existentes y presentamos un método eficaz para defenderse de los ataques sin degradar la calidad de respuesta de las imágenes limpias.
Presentamos un enfoque original para supervisar un modelo fuerte aprovechando un modelo débil.
Demuestra un alto rendimiento de defensa en varios conjuntos de datos y modelos.
Limitations:
Se necesitan más investigaciones para determinar si el método DPS propuesto es eficaz contra todo tipo de ataques visuales.
El rendimiento de la defensa puede verse degradado frente a ciertos tipos de imágenes parciales o ciertos vectores de ataque.
Debido a que se trata de un enfoque de caja negra, puede haber una falta de comprensión de los mecanismos de funcionamiento internos del modelo.
Se requiere una mayor validación de la aplicabilidad en entornos del mundo real.
👍