Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

EnvInjection: Ataque de inyección de mensajes ambientales a agentes web multimodales

Created by
  • Haebom

Autor

Xilong Wang, John Bloch, Zedian Shao, Yuepeng Hu, Shuyan Zhou, Neil Zhenqiang Gong

Describir

Este artículo propone un ataque de inyección de entorno (EnvInjection) contra agentes web basados ​​en modelos de lenguaje multimodales a gran escala (MLLM) que interactúan con entornos de páginas web. Para superar las limitaciones de los ataques existentes, incluyendo su efectividad y sigilo, así como su impracticabilidad en entornos reales, presentamos una novedosa técnica de ataque que perturba los valores de píxeles sin procesar de las páginas web renderizadas para inducir al agente web a realizar una acción específica (acción objetivo) seleccionada por el atacante. Para superar la dificultad de la asignación no diferenciable entre los valores de píxeles sin procesar y las capturas de pantalla, entrenamos una red neuronal que aproxima la asignación y aplica el descenso de gradiente proyectado para resolver el problema de optimización. Una evaluación exhaustiva en diversos conjuntos de datos de páginas web demuestra que EnvInjection supera a los modelos de referencia existentes.

Takeaways, Limitations

Takeaways:
Se presenta una nueva técnica para atacar eficazmente las vulnerabilidades en agentes web basados ​​en MLLM.
Se mejoraron la eficacia y los problemas de sigilo de los ataques existentes Limitations.
Mayor aplicabilidad a entornos del mundo real.
Prueba de la efectividad de las técnicas de aproximación y optimización de mapas utilizando redes neuronales.
Limitations:
Posibles dependencias de páginas web y agentes web específicos.
La complejidad del proceso de entrenamiento y optimización de redes neuronales.
Se necesitan más investigaciones para determinar la generalización de las tasas de éxito y los efectos de los ataques.
Se necesita una mayor validación de la estabilidad y la robustez en entornos web del mundo real.
👍