数据选择在数据驱动决策(包括大规模语言模型 (LLM))中起着至关重要的作用,并且通常与任务相关。数据质量和多样性已被广泛研究,并已知可以提升模型性能。本文表明,选择分布更均匀的数据可以提升性能,同时增强训练效率。具体而言,我们证明了更均匀(因此偏差更小)的分布会导致数据点之间的最小成对距离($h_{\min}$)更大,并证明较小的 $h_{\min}$ 会减慢梯度下降 (GD) 的训练动态。此外,我们从理论上证明了神经网络的近似误差会随着 $h_{\min}$ 的增加而减小。本研究提出了一种超越神经正切核 (NTK) 的 GD 收敛框架,该框架不需要 Lipschitz 平滑度,并且适用于包括 Transformer 在内的各种架构。该框架为在深度神经架构中使用残差连接和函数合成提供了理论基础。我们进行了全面的实验,以在各种设置(包括不同的优化策略、模型大小和训练数据集)中对监督学习进行微调。结果一致表明,通过最大化成对距离来选择数据可以显著加速 LLM 训练,并在不同数据集上实现相当甚至更好的性能。