每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

从不一致到一致:利用多路并行语料库扩展多语言法学硕士

Created by
  • Haebom

作者

沉英丽、赖文、王硕、高歌、罗康阳、Alexander Fraser、孙茂松

大纲

本文重点探讨如何利用多语言并行数据提升低资源语言的大规模语言模型 (LLM) 的性能。我们重点介绍了现有使用非对齐多语言数据的预训练和指令调优方法的局限性,并提出了一个多语言并行数据语料库,即 TED2025,这是一个基于 TED 演讲构建的涵盖 113 种语言的大规模高质量多语言并行语料库。利用 TED2025,我们研究了持续预训练和指令调优等策略如何提升 LLM 的性能。我们通过实验证明,基于多语言并行数据的模型在六个多语言评估标准上的表现均优于基于非对齐多语言数据的模型。

Takeaways,Limitations

Takeaways:
通过实验证明了使用多语言并行数据进行 LLM 预训练和微调的有效性。
TED2025,一个大规模、高质量、多语言的平行语料库。
提出利用多语言并行数据的最佳策略。
有助于提高低资源语言的 LLM 性能。
Limitations:
由于基于 TED 演讲数据的语料库的性质,需要进一步研究其普遍性。
缺乏与其他类型的多语言数据的比较分析。
缺乏对构建和利用多语言平行数据的成本和资源消耗的讨论。
👍