本文重点关注以下事实:虽然提高预训练数据的质量和规模可以提升下游性能,但文本复杂度(阅读难度)的影响研究相对较少。通过降低表面复杂度(即使用更短的句子、更简单的词语和更简单的结构,同时保持核心内容基本一致),我们研究了 (I) 文本复杂度如何影响不同的模型规模,(ii) 能否仅从简单文本中学习有用的表征,以及 (iii) 预训练文本复杂度如何影响下游语言理解。为此,我们使用了一个大规模语言模型来简化人工书写的文本。因果模型(28M-500M)使用原始数据和简化数据从头开始预训练,然后在零样本设置下进行微调和评估。