Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Protección de agentes de IA mediante el control del flujo de información
Created by
Haebom
Autor
Manuel Costa, Boris K opf, Aashish Kolluri, Andrew Pavard, Mark Russinovich, Ahmed Salem, Shruti Tople, Lukas Wutschitz, Santiago Zanella-B eguelin
Describir
Este artículo explora el aprovechamiento del Control de Flujo de Información (IFC) para protegerse contra vulnerabilidades como la inyección inmediata, lo que contribuye a la seguridad de agentes de IA cada vez más autónomos y capaces. Presentamos un modelo formal para inferir la seguridad y la expresividad de los planificadores de agentes, caracterizamos las clases de propiedades que se pueden aplicar con el seguimiento dinámico de contaminación y construimos una taxonomía de tareas para evaluar las compensaciones entre seguridad y utilidad de los diseños de planificadores. Basándonos en esta exploración, presentamos Fides, un planificador que rastrea las etiquetas de confidencialidad e integridad, aplica determinísticamente las políticas de seguridad e introduce nuevas primitivas para el ocultamiento selectivo de información. Las evaluaciones de AgentDojo demuestran que este enfoque puede realizar una amplia gama de tareas manteniendo las garantías de seguridad. Puede encontrar un tutorial que ilustra los conceptos presentados en este artículo en https://github.com/microsoft/fides .
Se presenta un nuevo método para fortalecer la seguridad contra vulnerabilidades como la inyección rápida en agentes de IA utilizando el Control de Flujo de Información (IFC).
◦
Proporcionamos un modelo formal y una clasificación de tareas para inferir la seguridad y la expresividad de los planificadores de agentes.
◦
Desarrollo y validación experimental de un novedoso planificador, Fides, capaz de aplicar de forma determinista políticas de seguridad y ocultar información de forma selectiva.
◦
Los resultados experimentales utilizando AgentDojo demuestran la utilidad y la amplia aplicabilidad de Fides.
•
Limitations:
◦
Es necesario un análisis más profundo del rendimiento y la escalabilidad del planificador Fides.
◦
Se necesita más investigación sobre la generalización entre diferentes tipos de agentes de IA y entornos de tareas.
◦
La necesidad de evaluar la resistencia a amenazas y ataques de seguridad complejos que puedan surgir en aplicaciones del mundo real.
◦
Es posible que se requiera una explicación o documentación adicional más allá del tutorial.