虽然大规模语言模型 (LLM) 已知能够从预训练数据中记忆和复现英语文本,但这种能力在多大程度上能够推广到非英语语言或跨语言迁移仍不清楚。本文探讨了 LLM 中的多语言和跨语言记忆,旨在检验用一种语言(例如英语)记忆的内容在以翻译形式呈现时是否能够被回忆起来。为此,我们推出了 OWL 数据集,该数据集包含来自 10 种语言的 20 本书的 31,500 个对齐摘录,包括英文原文、官方译本(越南语、西班牙语和土耳其语)以及六种资源匮乏语言(塞索托语、约鲁巴语、迈蒂利语、马达加斯加语、茨瓦纳语和塔希提语)的新译本。我们通过三项任务评估不同模型系列和规模的记忆能力:(1) 直接探索(要求模型识别书名和作者),(2) 姓名填空(要求模型预测被掩盖的人物姓名),以及 (3) 前缀探索(持续生成)。LLM 能够跨语言持续回忆内容,即使对于预训练数据中没有直接翻译的文本也是如此。例如,GPT-4o 在新翻译的摘录中,69% 的时间能够识别作者和书名,6% 的时间能够识别被掩盖的实体。干扰(例如,字符掩盖、词语改组)会略微降低直接探索的准确率(官方翻译改组后准确率下降 7%)。这些结果凸显了跨语言记忆的广度,并有助于深入了解不同模型之间的差异。