本文重点关注大规模语言模型 (LLM) 的安全威胁,这些模型在以人工智能解决方案为主导的现代 IT 环境中发挥着至关重要的作用。本文还探讨了可能阻碍 LLM 在政府机构和医疗机构等关键应用中可靠应用的问题。为了应对商业 LLM 中实施的复杂审查机制,作者研究了 LLM 越狱的威胁,并通过使用可解释的人工智能 (XAI) 解决方案比较和分析审查模型和未审查模型的行为,得出了独特的可利用的对齐模式。基于此,作者提出了一种新颖的越狱攻击 XBreaking,利用这些模式来突破 LLM 的安全约束。实验结果为审查机制提供了重要见解,并证明了所提攻击的有效性和性能。