Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RevPRAG: Revelando ataques de envenenamiento en la generación aumentada por recuperación mediante análisis de activación LLM

Created by
  • Haebom

Autor

Xue Tan, Hao Luan, Mingyu Luo, Xiaoyan Sun, Ping Chen, Jun Dai

Describir

Este artículo presenta RevPRAG, una novedosa técnica de detección de ataques de envenenamiento de RAG, una vulnerabilidad en los sistemas de Generación Aumentada por Recuperación (RAG). El envenenamiento de RAG consiste en inyectar texto malicioso en una base de datos de conocimiento para forzar al LLM a generar las respuestas deseadas por el atacante. RevPRAG detecta estos ataques analizando los patrones de activación del LLM para distinguir entre respuestas normales y maliciosas. Demostramos que alcanza una tasa de verdaderos positivos del 98 % y una tasa de falsos positivos cercana al 1 % en diversos conjuntos de datos de referencia y arquitecturas RAG.

Takeaways, Limitations

Takeaways:
Presentamos la efectividad de la detección de ataques de envenenamiento de RAG a través del análisis del patrón de activación de LLM.
Presentamos la técnica RevPRAG, que logra una alta precisión (tasa de positivos verdaderos del 98% y tasa de falsos positivos cercana al 1%).
Presenta una nueva dirección para fortalecer la seguridad del sistema RAG.
Limitations:
Dado que estos son resultados de evaluación de desempeño para arquitecturas LLM y RAG específicas, su generalización a otros modelos y arquitecturas requiere más investigación.
A medida que aumenta la variedad y complejidad de los ataques, existe la posibilidad de que se degrade el rendimiento de RevPRAG.
Se necesitan más investigaciones para verificar su eficacia en situaciones del mundo real.
👍