每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

BanglaLlama:孟加拉语的 LLaMA

Created by
  • Haebom

作者

阿卜杜拉·汗·泽哈迪、Shubhashis Roy Dipta、Naymul Islam、Safi Al Mamun、Santu Karmaker

大纲

全球约有 3 亿人使用孟加拉语,其中包括 2.4 亿母语人士。尽管孟加拉语是世界上使用范围第五广的语言,但它被认为是一种“资源匮乏”的语言,现有的预训练语言模型在处理孟加拉语语言处理 (BLP) 任务时举步维艰。本文通过以下方式解决这一问题:(1) 引入 Bangla-Orca (172,000) 和 Bangla-Alpaca (52,000) 这两个包含 224,000 个样本的高质量翻译孟加拉语教学数据集;(2) 利用这些数据集开发 BanglaLlama,这是一个开源的孟加拉语专用法学语言模型 (LLM),包含五个基础变体和教学变体。本研究介绍了相关方法、两个大规模数据集以及全面的基准测试结果,证明了这些数据集和模型在多个基准测试中的有效性。拟议的数据集和模型将成为未来研究广泛使用但“资源匮乏”语言的新标准。

Takeaways, Limitations

为孟加拉语(Bangla-Orca、Bangla-Alpaca)提供两个高质量的翻译教学数据集。
基于该数据集,我们开发了孟加拉语特定的 LLM(BanglaLlama)(五个基础和指导变体)。
通过各种基准证明模型和数据集的有效性。
为资源匮乏的语言孟加拉语的研究提出新标准。
未指定该论文的 Limitations。
👍