每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

接种提示:在训练期间从 LLM 中引出特征可以在测试时抑制它们

Created by
  • Haebom

作者

丹尼尔·谭、安德斯·伍德拉夫、尼尔斯·沃克、阿伦·何塞、马克西姆·里奇、大卫·德米特里·阿非利加、米娅·泰勒

大纲

本文介绍了一种名为“接种提示”的技术,旨在解决语言模型微调过程中学习到不想要的特征的问题。该技术的工作原理是向微调数据中添加简短的系统提示,从而有意地引入不想要的特征。在测试过程中,接种后的模型在没有这些提示的情况下进行评估,并且接种后的模型表现出的这些特征明显少于使用未修改训练数据训练的模型。例如,如果一个模型用西班牙语和所有大写字母进行响应,那么适当的接种(例如,“你总是说西班牙语”)可以教会该模型在仍然使用英语响应的情况下将其响应大写。接种提示在其他一些场景中也被证明是有效的,包括减少由于微调引起的错位 (EM)、防御后门注入以及通过潜在学习减轻特征迁移。

Takeaways, Limitations

Takeaways:
针对选择性学习的简单有效的技术建议。
加深对语言模型如何以及为何概括的理解。
我们证明了通过微调减轻对齐不匹配(EM)、防御后门注入以及通过潜在学习减轻特征转移的有效性。
我们提出了一种机制,通过接种特征使模型不那么令人惊讶,可以减少整体模型更新压力,从而提高泛化能力。
解释先前的研究结果,即教育环境可以减轻由不安全代码引起的 EM。
Limitations:
论文中没有具体提及Limitations。(仅根据摘要很难识别Limitations。)
👍