每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

RepIt:表示孤立目标来引导语言模型

Created by
  • Haebom

作者

Vincent Siu、Nathan W. Henry、Nicholas Crispino、Yang Liu、Dawn Song、王晨光

大纲

随着大规模语言模型 (LLM) 中激活控制研究的不断深入,我们提出了 RepIt,这是一个简单且数据高效的框架,用于分离特定概念的表征。RepIt 能够对五种最先进的 LLM 进行精确干预,选择性地抑制特定概念的拒绝,同时保留其他概念的拒绝。这使得模型能够回答与大规模杀伤性武器 (WMD) 相关的问题,同时在标准基准上保持安全分数。此外,我们证明了校正信号被限制在 100-200 个神经元内,从而能够从少至 12 个样本中提取出稳健的目标表征。

Takeaways, Limitations

Takeaways:
RepIt 可以实现有针对性的干预以及对模型行为的更精细的控制。
它可以抑制过度概括并精确控制模型对特定概念的响应。
即使使用少量数据和计算资源也可以有效地提取目标表达。
Limitations:
即使只有少量数据也可以对其进行操纵,因此可以利用它来逃避现有的基准。
代表性不足的数据(即数据不足的主题)可能会被扩展并可能被用于恶意目的。
👍