每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

谁是内鬼?基于 LLM 的多智能体系统中恶意代理的建模与检测

Created by
  • Haebom

作者

谢一哲、朱聪聪、张新月、朱天庆、叶大勇、王明浩、刘驰

大纲

基于大型语言模型 (LLM) 的多智能体系统 (LLM-MAS) 在解决协作问题方面表现出色,但也带来了新的安全风险。本文系统研究了针对 LLM-MAS 的意图隐藏攻击,设计了四种代表性攻击范式,并在集中式、分布式和分层通信架构中对其进行了评估。实验结果表明,这些攻击具有破坏性,并且能够轻松规避现有的防御机制。为了解决这个问题,我们提出了一个基于心理学的检测框架 AgentXposed。AgentXposed 利用 HEXACO 人格模型和 Reid 询问技术来主动识别恶意智能体的意图。在六个数据集上的实验结果表明,AgentXposed 能够有效检测各种形式的恶意行为,并在各种通信环境中表现出稳健性。

Takeaways,Limitations

Takeaways:
系统分析了LLM-MAS的安全漏洞,提出了新的攻击方法,提出了相关研究的必要性。
我们提出了一个新的检测框架 AgentXposed,它利用心理学原理为恶意代理检测提供新的可能性。
我们在各种攻击和通信环境中证明了 AgentXposed 的有效性,展现了其作为实用安全解决方案的潜力。
Limitations:
所提出的攻击范例可能无法涵盖 LLM-MAS 的所有潜在安全威胁。
当将 AgentXposed 应用于真实环境时,HEXACO 模型的准确性和 Reid 技术的有效性可能会根据代理的特性和情况而有所不同。
AgentXposed 的检测性能可能无法在所有攻击场景中得到保证,并且可能出现误报。
👍