本文提出了一种记忆增强架构和预训练策略,以解决现代语言模型性能依赖于参数扩展的问题。该架构允许小型语言模型访问一个大型分层参数化存储库,该存储库编码了世界知识。在预训练和推理过程中,系统会根据上下文检索小型记忆块并将其添加到模型中。这使得长尾世界知识能够存储在记忆参数中,同时小型语言模型可以学习处理通用知识和通用推理能力。实验表明,将 18M 参数记忆添加到一个 160M 参数模型(源自 4.6B 存储库)中,其性能可与参数数量为其两倍以上的典型模型相媲美。我们还研究了 Transformer 模型的最佳参数记忆类型和大小,并将其扩展到 21B 参数。我们证明,无论是预训练还是后训练添加,所提出的分层前馈记忆在 Transformer 架构中都表现出色。