每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

LLM-JEPA:大型语言模型与联合嵌入预测架构的结合

Created by
  • Haebom

作者

黄海、Yann LeCun、兰德尔·巴莱斯特里罗

LLM-JEPA:语言模型的嵌入空间训练

大纲

本文重点探讨了大规模语言模型 (LLM) 的预训练、微调和评估依赖于其重建和生成输入空间的能力这一事实。本文探讨了嵌入空间训练目标(例如联合嵌入预测架构 (JEPA))在视觉领域相对于输入空间方法的优势。我们质疑语言和视觉训练方法之间的差异,并探索视觉方法在语言训练中的适用性。LLM-JEPA 提出了一种基于 JEPA 的 LLM 解决方案,适用于微调和预训练。它在各种模型和数据集上的表现均显著优于标准 LLM 训练目标,并展现出对过拟合的稳健性。

Takeaways, Limitations

我们成功地将视觉嵌入空间训练方法应用于LLM训练,并取得了性能的提升。
它表现出对过度拟合的稳健性,表明了提高泛化性能的可能性。
我们已经在 Llama3、OpenELM、Gemma2 和 Olmo 等各种模型以及 NL-RX、GSM8K、Spider 和 RottenTomatoes 等各种数据集上验证了它的有效性。
这是 JEPA 风格 LLM 发展的早期步骤,为未来的研究奠定了基础。
对于 LLM-JEPA 如何具体利用嵌入空间,可能缺乏详细的解释。
尽管我们已经实现了模型和数据集的多样性,但仍需要进一步验证以确保我们的结果可以推广到所有类型的 LLM 和数据集。
提供了代码( https://github.com/rbalestr-lab/llm-jepa) ,但缺少有关代码可用性和可扩展性的信息。
👍