[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Cómo no detectar inyecciones inmediatas con un LLM

Created by
  • Haebom

Autor

Sarthak Choudhary, Divyam Anshumaan, Nils Palumbo, Somesh Jha

Describir

Este artículo estudia los ataques de inyección rápida en aplicaciones y agentes basados en modelos de lenguaje a gran escala (LLM). En particular, revelamos la vulnerabilidad estructural de la Detección de Respuesta Conocida (KAD), una técnica convencional de defensa contra la inyección rápida, y proponemos DataFlip, una novedosa técnica de ataque que la explota. DataFlip evade eficazmente las técnicas de defensa de KAD (tasa de detección inferior al 1,5 %) e induce comportamiento malicioso con una alta tasa de éxito (hasta el 88 %) sin necesidad de acceso de caja blanca ni procedimientos de optimización para LLM.

Takeaways, Limitations

Takeaways: Al revelar la vulnerabilidad fundamental de las técnicas de defensa contra ataques de inyección rápida basados en KAD, cuestionamos la fiabilidad de las técnicas de defensa existentes y sugerimos la necesidad de desarrollar técnicas de defensa más potentes. La técnica de ataque DataFlip demuestra empíricamente la vulnerabilidad de seguridad de los sistemas basados en LLM.
Limitations: Dado que este estudio presentó una técnica de ataque para una técnica específica de defensa contra KAD, su eficacia contra otros tipos de técnicas de defensa requiere investigación adicional. Además, la tasa de éxito de DataFlip puede variar según el entorno específico, y su eficacia en entornos reales debe verificarse mediante experimentos adicionales.
👍