每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

数据一致性通过超越 NTK 机制的融合框架提高训练效率及其他优势

Created by
  • Haebom

作者

王玉清、顾尚定

大纲

数据选择在数据驱动决策(包括大规模语言模型 (LLM))中起着至关重要的作用,并且通常与任务相关。数据质量和多样性已被广泛研究,并已知可以提升模型性能。本文表明,选择分布更均匀的数据可以提升性能,同时增强训练效率。具体而言,我们证明了更均匀(因此偏差更小)的分布会导致数据点之间的最小成对距离($h_{\min}$)更大,并证明较小的 $h_{\min}$ 会减慢梯度下降 (GD) 的训练动态。此外,我们从理论上证明了神经网络的近似误差会随着 $h_{\min}$ 的增加而减小。本研究提出了一种超越神经正切核 (NTK) 的 GD 收敛框架,该框架不需要 Lipschitz 平滑度,并且适用于包括 Transformer 在内的各种架构。该框架为在深度神经架构中使用残差连接和函数合成提供了理论基础。我们进行了全面的实验,以在各种设置(包括不同的优化策略、模型大小和训练数据集)中对监督学习进行微调。结果一致表明,通过最大化成对距离来选择数据可以显著加速 LLM 训练,并在不同数据集上实现相当甚至更好的性能。

Takeaways, Limitations

Takeaways:
我们证明均匀分布的数据选择可以提高 LLM 训练效率和性能。
使用最小成对距离($H_{\min}$)量化数据一致性,并将其与训练速度和性能联系起来。
开发超越 NTK 的通用神经网络架构(包括 Transformer)的 GD 收敛框架。
为残差连接、功能综合等深度架构设计提供理论基础。
我们通过对各种环境下的监督学习进行微调实验来证明我们方法的有效性。
Limitations:
缺乏对具体数据选择方法的详细解释。
缺乏对实际计算和应用 $H_{\min}$ 所需的计算复杂性的讨论。
需要进一步研究来确定所提出的方法对其他类型的深度学习模型和任务的通用性。
本研究的结果可能仅限于特定的数据集。
👍