每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

重新思考文本复杂性在语言模型预训练中的作用

Created by
  • Haebom

作者

丹·约翰·贝拉斯科、马修·西奥多·罗克

大纲

本文重点关注以下事实:虽然提高预训练数据的质量和规模可以提升下游性能,但文本复杂度(阅读难度)的影响研究相对较少。通过降低表面复杂度(即使用更短的句子、更简单的词语和更简单的结构,同时保持核心内容基本一致),我们研究了 (I) 文本复杂度如何影响不同的模型规模,(ii) 能否仅从简单文本中学习有用的表征,以及 (iii) 预训练文本复杂度如何影响下游语言理解。为此,我们使用了一个大规模语言模型来简化人工书写的文本。因果模型(28M-500M)使用原始数据和简化数据从头开始预训练,然后在零样本设置下进行微调和评估。

Takeaways,Limitations

Takeaways:
模型性能取决于模型大小和文本复杂度之间的相互作用。较小的模型在处理较简单的文本时,性能下降幅度较小。
文本复杂度对微调评估影响不大。
在零样本评估中,简单文本对于涉及语言知识的任务有利,而更复杂的文本对于需要世界知识和对象跟踪的任务有利。
数据多样性对迁移学习和零样本性能的影响不同,为根据特定目标定制数据管理提供了有用的信息。
Limitations:
论文摘要中未包含对具体 Limitations 的引用。
👍