每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

用于语言建模的马尔可夫分类框架

Created by
  • Haebom

作者

张一凡

大纲

自回归语言模型展现出令人印象深刻的性能,但仍缺乏统一的理论来解释其内部机制、训练如何塑造表征以及如何实现复杂行为。本文提出了一个新颖的分析框架,该框架使用马尔可夫分类语言将单步生成建模为信息处理阶段的组合。这种组合视角提供了一种统一的数学语言,将语言建模的三个关键方面(通常分别研究)联系起来:训练目标、学习表征空间的几何形状以及模型的实际功能。首先,该框架为推测解码等多标记预测方法的成功提供了精确的信息论基础,量化了模型隐藏状态中包含的关于紧接的下一个标记之外的标记的信息盈余。其次,它阐明了标准负对数似然 (NLL) 目标如何迫使模型不仅学习下一个单词,还要学习数据固有的条件不确定性,并使用分类熵将其形式化。我们的主要结果表明,在假设线性softmax头和有界特征的情况下,最小化NLL可以实现谱对齐:学习到的表征空间与预测相似性算子的固有谱对齐。这项研究为信息如何在模型中流动以及训练目标如何塑造其内部几何结构提供了强有力的新见解。

Takeaways,Limitations

Takeaways:
提出了一种新的分析框架来理解语言模型的内部机制。
为多标记预测方法的成功提供信息论依据。
阐明 NLL 目标如何指导学习数据的条件不确定性。
识别学习到的表示空间与预测的相似算子的特征谱之间的关系(谱对齐)。
有助于理解语言模型中的信息流和训练目标如何塑造其内部结构。
Limitations:
包括关于线性 Softmax 头和有界特征的假设。
可能仅限于特定的模型架构和训练设置。
所提出的框架可能无法完全解释所有语言模型的行为。
👍