Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Agente VeriSafe: Protección del agente de GUI móvil mediante la verificación de acciones basada en lógica

Created by
  • Haebom

Autor

Jungjae Lee, Dongjae Lee, Chihun Choi, Youngmin Im, Jaeyoung Wi, Kihong Heo, Sangeun Oh, Sunjae Lee, Insik Shin

Describir

Para abordar los problemas de fiabilidad de los agentes de interfaz gráfica de usuario (GUI) móviles basados ​​en Modelos de Gran Cimentación (LFM), este artículo propone VeriSafe Agent (VSA), un sistema de verificación formal. VSA formaliza automáticamente los comandos de usuario en lenguaje natural en especificaciones verificables formalmente, lo que permite verificar en tiempo real que el comportamiento del agente refleja con precisión la intención del usuario. Implementado mediante GPT-4o, VSA alcanzó una precisión del 94,33 % al 98,33 % en 300 comandos de usuario de 18 aplicaciones móviles, una mejora del 30,00 % al 16,33 % con respecto a los métodos existentes y una mejora del 90 % al 130 % en las tasas de finalización de tareas de los agentes de interfaz gráfica de usuario. Esto representa el primer intento de reducir la brecha entre el comportamiento basado en LFM y la verificación formal de software.

Takeaways, Limitations

Takeaways:
Presentamos un novedoso sistema de verificación formal que puede mejorar significativamente la confiabilidad y seguridad de los agentes GUI móviles basados ​​en LFM.
Demostramos que las técnicas de formalización automática pueden transformar eficazmente los comandos de lenguaje natural en especificaciones formales.
El rendimiento superior de VSA se verifica a través de resultados experimentales en aplicaciones móviles reales.
Presentamos un nuevo paradigma para garantizar la seguridad de los sistemas basados ​​en LFM.
Limitations:
Actualmente se depende de GPT-4o, por lo que su generalización a otros modelos LFM requiere más investigación.
Con 18 aplicaciones y 300 comandos de usuario, puede que no sea suficiente para cubrir todo tipo de tareas móviles.
Es necesaria una mayor verificación de la precisión y la integridad del proceso de formato automático.
Se necesita más investigación sobre el rendimiento del procesamiento para situaciones complejas o comandos de lenguaje natural ambiguos.
👍