每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

使用分层记忆进行预训练:分离长尾知识和常识

Created by
  • Haebom

作者

哈迪·普兰萨里、大卫·格兰吉尔、C·托马斯、迈克尔·基尔霍夫、奥恩塞尔·图泽尔

大纲

本文提出了一种记忆增强架构和预训练策略,以解决现代语言模型性能依赖于参数扩展的问题。该架构允许小型语言模型访问一个大型分层参数化存储库,该存储库编码了世界知识。在预训练和推理过程中,系统会根据上下文检索小型记忆块并将其添加到模型中。这使得长尾世界知识能够存储在记忆参数中,同时小型语言模型可以学习处理通用知识和通用推理能力。实验表明,将 18M 参数记忆添加到一个 160M 参数模型(源自 4.6B 存储库)中,其性能可与参数数量为其两倍以上的典型模型相媲美。我们还研究了 Transformer 模型的最佳参数记忆类型和大小,并将其扩展到 21B 参数。我们证明,无论是预训练还是后训练添加,所提出的分层前馈记忆在 Transformer 架构中都表现出色。

Takeaways, Limitations

Takeaways:
将小型语言模型与外部存储库相结合,我们可以在保持性能的同时减少模型参数的数量。
它表明在内存和计算资源有限的环境(例如边缘设备)中有效使用语言模型的可能性。
它可以利用分层前馈记忆应用于各种变压器架构。
Limitations:
需要对记忆库的建立和管理进行进一步研究。
需要研究根据内存访问方式的性能变化和优化。
需要进一步验证所提出的架构在实际应用中的有效性。
👍