每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

LayerCake:大型语言模型层内的标记感知对比解码

Created by
  • Haebom

作者

朱敬泽、吴永亮、朱文波、曹家旺、郑彦强、陈嘉伟、徐阳、Bernt Schiele、Jonas Fischer、胡欣婷

大纲

大规模语言模型 (LLM) 擅长理解和生成自然语言,但其易受事实错误的影响,限制了其在知识密集型任务中的可靠性。虽然解码时间策略提供了一种无需训练的有效解决方案,但现有方法分别处理标记级和层级信号,忽略了它们之间的联合动态。在本研究中,我们提出了一种标记感知、层级定位的对比解码方法,该方法通过将特定标记类型与其最具影响力的 Transformer 层对齐来改进事实生成。实证注意力分析发现了两个关键模式:标点符号在早期层级中占据主导地位,而概念标记在中间层级中主导语义推理。通过在此深度选择性地抑制对这些标记类型的注意力,我们实现了可控的事实降级,并获得了指导最终事实解码的对比信号。我们的方法无需额外的训练或模型修改,并且我们通过实验证明,它能够在多个 LLM 和各种基准测试中持续提升事实性。

Takeaways,Limitations

Takeaways:
我们提出了一种新方法来解决 LLM 的现实性问题,即考虑标记级和层级信号之间的联合动态。
无需额外训练或模型修改即可提高各种 LLM 的真实感性能。
我们分析标点符号和概念符号的注意力模式,并利用它们来设计方法。
我们提出了一种通过控制事实退化来诱导对比信号的创新方法。
Limitations:
因为它依赖于特定标记类型(标点符号、概念标记)的注意力模式分析,所以对其他类型的标记或模型结构的推广可能会受到限制。
该方法的性能可能仅限于特定的 LLM 和基准,其对各个领域的适用性有待进一步验证。
需要进一步分析以确定注意力抑制机制对 LLM 其他能力(例如流畅性、创造力)的影响。
👍