每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

幻觉还是算法?探究情境学习中的记忆、涌现和符号加工

Created by
  • Haebom

作者

牛景成、Subhabrata Dutta、Ahmed Elshabrawy、Harish Tayyar Madabushi、Iryna Gurevych

大纲

大规模 Transformer 语言模型 (LM) 经过网络规模数据训练,用于下一代词法单元预测,只需少量样本即可解决各种任务。这种能力背后的机制被称为上下文学习 (ICL),但仍然存在争议,且鲜为人知。本研究介绍了一系列研究任务和新方法,用于系统性地探究 ICL。通过利用整个 Pythia 扩展套件仔细探索 ICL 在下游任务上的性能,并同时对残差流子空间进行机器学习分析,我们证明了 ICL 不仅仅是对训练语料库的“记忆”。此外,我们还阐明了 ICL 的几个方面,包括训练动态、模型能力和机器可解释性。

Takeaways, Limitations

ICL 展现出了超越简单记忆的能力。
很难将其视为独立符号算法的实现。
训练动态、模型能力和机械可解释性影响 ICL。
为模型开发人员提供对潜在改进的见解。
它为指导奠定了基础,将为人工智能安全专业人员提供更多信息。
👍