每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

宝石:多面缩放定律的模型套件

Created by
  • Haebom

作者

肖恩·麦克利什、约翰·基尔兴鲍尔、戴维·余·米勒、悉达尔特·辛格、阿比纳夫·巴泰勒、迈卡·高布伦、阿什维尼·潘达、汤姆·戈德斯坦

大纲

本文探讨了现有缩放定律研究使用狭窄、固定超参数设置的局限性,并探索了使用多种架构配置和超参数选择的缩放定律。作为一项重要研究成果,我们发布了 Gemstones,这是一个开源缩放定律数据集,包含 4,000 多个 Transformer 模型检查点,参数数量高达 20 亿。该数据集融合了学习率和冷却时间的消融,支持复杂的缩放定律研究,例如涉及宽度和深度关系的研究。我们发现,缩放定律的处方对实验设计过程和特定的模型检查点高度敏感。

Takeaways, Limitations

根据实验设计和模型检查点的选择,缩放定律的规定可能会有很大差异。
我们强调需要考虑各种架构形式和超参数设置的缩放规律研究。
Gemstones 数据集增加了扩展研究的复杂性并使得更深入的分析成为可能。
对模型泛化能力的评估可能有限。
需要进一步研究来确定结果对特定超参数设置的普遍性。
👍