每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

潜在的思维链?解码深度循环Transformer

Created by
  • Haebom

作者

卢文泉、杨跃川、李凯尔、李艳树、刘恩琪

大纲

我们探究了深度递归 Transformer 模型 Huginn-3.5B 是否展现出可解释的潜在思维链 (CoT) 推理结构。我们使用各种探测技术(包括 Logit Lens 和 Coda Lens)检验了该模型在算术运算中的内部运作机制。通过追踪最终结果和中间结果 token 的排序轨迹,我们发现了可解释的潜在思维链 (CoT) 的有限证据。此外,我们证明了递归块之间存在显著的探测不一致性,并且隐藏状态的可解释性会因层索引和解码方法的不同而显著变化。我们通过实证证明,增加递归深度仅能带来微不足道的收益,远不及那些明确将推理步骤外部化的模型。

Takeaways, Limitations

Takeaways:
Huginn-3.5B 显示出有限的可解释潜在 CoT 推理。
递归块之间的探测不匹配,隐藏状态的可解释性取决于层索引和解码方法。
增加递归深度会限制性能的提升。
Limitations:
递归转换器在捕获潜在 CoT 方面的有效性存在限制。
需要进一步研究内部表征的一致性和可解释性。
将显式推理步骤外部化的模型存在性能差距。
👍