我们提出了一个将最小描述长度 (MDL) 原理应用于机器学习的理论框架。具体而言,我们解决了 Transformer 等神经网络中模型复杂度缺乏通用度量的问题。本文基于柯尔莫哥洛夫复杂度理论,引入了渐近最优描述长度目标的概念。我们证明,最小化该目标可以在所有数据集(不包括加性常数)上实现最佳压缩,同时模型资源也会随之增加。我们证明了 Transformer 的计算通用性,揭示了 Transformer 存在渐近最优目标。此外,我们构建并分析了基于自适应高斯混合先验的变分目标,证明了该目标的实用性和可微性。虽然我们通过实验分析了在算法任务中选择具有高泛化性能的低复杂度解的变分目标,但标准优化器在随机初始化下无法找到这样的解,这凸显了 Transformer 面临的一个关键的优化挑战。更广泛地说,通过提供用于识别具有强渐近保证的描述长度目标的理论框架,我们为实现更好的压缩和泛化的神经网络训练提出了一条潜在的前进道路。