每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

接种提示:在训练期间从 LLM 中引出特征可以在测试时抑制它们

Created by
  • Haebom

作者

丹尼尔·谭、安德斯·伍德拉夫、尼尔斯·沃克、阿伦·何塞、马克西姆·里奇、大卫·德米特里·阿非利加、米娅·泰勒

大纲

为了解决语言模型微调过程中学习不良特征的问题,本文提出了一种“注入提示”技术。注入提示通过向微调数据中添加系统提示的简短指令来修改模型,这些指令会故意引入不良特征。在测试时,这些指令会在没有指令的情况下进行评估,注入的模型表现出的不良特征明显少于在未修改的训练数据上训练的模型。该技术在多种场景下均具有选择性且有效,包括减少对齐异常、防御后门注入以及通过潜在学习缓解特征传播。我们的分析表明,注入可以减少特征意外,从而降低整体模型更新的优化压力,进而降低泛化能力。

Takeaways, Limitations

Takeaways:
提供简单有效的选择性学习技巧。
增加对语言模型如何概括的理解。
有助于减少异常对齐、防御后门注入和减轻潜在学习。
解释先前的研究结果,即教育环境可以减轻不安全代码中的 EM。
Limitations:
论文中没有指定 Limitations。
👍