每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

超越“对不起,我不能”:剖析大型语言模型的拒绝

Created by
  • Haebom

作者

Nirmalendu Prakash、杨伟杰、Amir Abdullah、Ranjan Satapathy、Erik Cambria、Roy Ka Wei Lee

拒绝机制研究

大纲

本研究旨在理解指令调优的大规模语言模型 (LLM) 拒绝有害提示的内部机制。我们使用基于 Gemma-2-2B-IT 和 LLaMA-3.1-8B-IT 模型残差流激活训练的稀疏自编码器 (SAE),识别出一组诱导模型对有害提示产生拒绝行为的 SAE 特征。通过三阶段流程(拒绝方向搜索、贪婪过滤和交互发现),我们识别出对拒绝行为有关键影响的特征,并借此试图理解模型安全行为的机制基础。我们发现了冗余特征的存在,这使我们能够操纵可解释的潜在空间,从而表明可以对安全行为进行细粒度审计并采取有针对性的干预措施。

Takeaways, Limitations

Takeaways:
提供对 LLM 有害提示拒绝机制的机械理解。
识别一组对拒绝行为有重大影响的特征。
通过可解释的潜在空间审核安全行为并提出干预的可能性。
通过识别冗余特征的存在来指示模型的复杂操作。
Limitations:
对特定模型(Gemma-2-2B-IT、LLaMA-3.1-8B-IT)的研究在普遍性方面存在局限性。
基于 SAE 的分析的局限性:依赖于 SAE 的性能和可解释性。
三级流水线的复杂性:每个阶段的性能都会影响整体结果。
缺乏针对安全行为的直接 Takeaways 强化策略,而重点关注“越狱”的特征操纵。
👍