每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

利用内部和外部知识预训练有限记忆语言模型

Created by
  • Haebom

作者

赵林希、Sofian Zalouk、Christian K. Belardi、Justin Lovelace、周金鹏、Ryan Thomas Noonan、Dongyoung Go、Kilian Q. Weinberger、Yoav Artzi、Jennifer J. Sun

大纲

神经语言模型是黑匣子,其语言模式和事实知识分布在众多不透明的参数中。这种纠缠编码使得可靠地检查、验证或更新特定事实变得困难。在本文中,我们介绍了有限记忆语言模型 (LMLM),它将事实知识存储在外部数据库中,而不是在预训练期间记忆它。通过预训练方法,作者策略性地将从外部检索到的事实值从训练损失中屏蔽掉,从而使模型能够学习执行目标查找,而不是依赖于模型权重。实验结果表明,与规模更大的 LLM 相比,LMLM 在标准基准测试中实现了极具竞争力的性能,同时还具有明确、可编辑和可验证的知识库的优势。

Takeaways, Limitations

Takeaways:
LMLM 利用外部数据库明确管理事实知识,减少模型对记忆的依赖,并在保持性能的同时促进知识的修改、验证和管理。
LMLM 即使使用较小的模型也能实现具有竞争力的性能,从而提高计算效率。
Limitations:
本文并未直接讨论Limitations。(这可能表明本文依赖于外部数据库的质量和可访问性,并且需要进一步研究外部数据库和模型之间的交互和集成。)
👍