Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Dominio de un solo disparo: ataque de envenenamiento del conocimiento en sistemas de generación aumentada por recuperación

Created by
  • Haebom

Autor

Zhiyuan Chang, Mingyang Li, Xiaojun Jia, Junjie Wang, Yuekai Huang, Ziyou Jiang, Yang Liu, Qing Wang

Describir

Este artículo aborda las vulnerabilidades de seguridad de los modelos de lenguaje a gran escala (LLM) basados ​​en la Generación Aumentada por Recuperación (RAG), específicamente el riesgo de ataques de contaminación de conocimiento contra bases de conocimiento externas de acceso público y modificables. Si bien los métodos de ataque existentes requieren múltiples documentos o solo son efectivos contra consultas simples, este artículo presenta AuthChain, un método práctico de ataque de contaminación de conocimiento que es efectivo contra consultas complejas de varios pasos al contaminar un solo documento. AuthChain aborda tres desafíos, asegurando que los documentos contaminados se recuperen de forma fiable y sean confiables para el LLM, a pesar de la gran base de conocimiento y el propio conocimiento del LLM. Mediante experimentos exhaustivos con seis LLM populares, demostramos que AuthChain logra tasas de éxito de ataque significativamente mayores y un sigilo superior en comparación con los modelos de referencia de vanguardia existentes.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de un ataque efectivo y sigiloso de contaminación del conocimiento en los sistemas RAG a través de la contaminación de un solo documento.
Propuesta de una técnica AuthChain que supera las limitaciones de los métodos de ataque existentes.
Validar la eficacia de AuthChain a través de experimentos en varios LLM y bases de conocimiento a gran escala.
Proporciona información importante Takeaways para mejorar la seguridad del sistema RAG.
Limitations:
La eficacia de AuthChain se basa en resultados experimentales para un LLM y una base de conocimientos específicos y, por lo tanto, es posible que no se generalice a otros entornos.
Puede que no refleje perfectamente escenarios complejos del mundo real.
Se necesita el desarrollo y la investigación de técnicas de defensa para AuthChain.
👍