每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

桥接 Kolmogorov 复杂度与深度学习:Transformer 的渐近最优描述长度目标

Created by
  • Haebom

作者

彼得·肖、詹姆斯·科汉、雅各布·爱森斯坦、克里斯蒂娜·图塔诺娃

大纲

我们提出了一个将最小描述长度 (MDL) 原理应用于机器学习的理论框架。具体而言,我们解决了 Transformer 等神经网络中模型复杂度缺乏通用度量的问题。本文基于柯尔莫哥洛夫复杂度理论,引入了渐近最优描述长度目标的概念。我们证明,最小化该目标可以在所有数据集(不包括加性常数)上实现最佳压缩,同时模型资源也会随之增加。我们证明了 Transformer 的计算通用性,揭示了 Transformer 存在渐近最优目标。此外,我们构建并分析了基于自适应高斯混合先验的变分目标,证明了该目标的实用性和可微性。虽然我们通过实验分析了在算法任务中选择具有高泛化性能的低复杂度解的变分目标,但标准优化器在随机初始化下无法找到这样的解,这凸显了 Transformer 面临的一个关键的优化挑战。更广泛地说,通过提供用于识别具有强渐近保证的描述长度目标的理论框架,我们为实现更好的压缩和泛化的神经网络训练提出了一条潜在的前进道路。

Takeaways, Limitations

Takeaways:
为将MDL原理应用于神经网络,尤其是Transformers提供了理论基础。
我们提出了一种方法,通过提出渐近最优的技术长度目标来确保模型的最佳压缩。
通过证明变压器的计算通用性来加强理论基础。
我们提出了一种使用自适应高斯混合先验变分目标的实用方法并进行了实验验证。
它展示了找到具有更好泛化性能的低复杂度解决方案的潜力。
Limitations:
它强调了优化过程的难度,指出标准优化器很难找到低复杂度的解决方案。
实验仅限于特定的算法任务,对于更广泛任务的普遍性需要进一步研究。
👍