大规模 Transformer 语言模型 (LM) 经过网络规模数据训练,用于下一代词法单元预测,只需少量样本即可解决各种任务。这种能力背后的机制被称为上下文学习 (ICL),但仍然存在争议,且鲜为人知。本研究介绍了一系列研究任务和新方法,用于系统性地探究 ICL。通过利用整个 Pythia 扩展套件仔细探索 ICL 在下游任务上的性能,并同时对残差流子空间进行机器学习分析,我们证明了 ICL 不仅仅是对训练语料库的“记忆”。此外,我们还阐明了 ICL 的几个方面,包括训练动态、模型能力和机器可解释性。