每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

GRADA:基于图的重排序对抗对抗性文档攻击

Created by
  • Haebom

作者

郑静洁、Aryo Pradipta Gema、Giwon Hong、何宣丽、Pasquale Minervini、孙友成、徐琼凯

大纲

检索增强生成 (RAG) 框架通过整合来自检索文档的外部知识来提高大规模语言模型 (LLM) 的准确率。然而,该框架易受对抗性攻击的影响,这些攻击会通过在查询中引入语义相似但具有对抗性的文档来操纵检索过程。本文提出了一种基于图的重排序 (GRADA) 框架,用于对抗性文档攻击,该框架在保持检索质量的同时显著降低了攻击者的成功率。我们在五个 LLM 模型和三个数据集(GPT-3.5-Turbo、GPT-4o、Llama3.1-8b、Llama3.1-70b 和 Qwen2.5-7b)上进行了实验,在 Natural Questions 数据集上将攻击成功率降低了高达 80%,同时最大限度地降低了准确率损失。

Takeaways,Limitations

Takeaways:
提出一种有效的解决RAG框架对抗攻击漏洞问题的方法。
我们通过实验证明,GRADA 框架可以在保持准确性的同时显著降低对抗性文档攻击的成功率。
我们使用各种 LLM 和数据集展示了全面的实验结果。
Limitations:
需要进一步研究所提出的 GRADA 框架的泛化性能。
有必要评估针对更复杂和多样化的对抗性攻击的防御性能。
依赖于特定数据集并需要评估其他类型数据集的性能。
👍