全球约有 3 亿人使用孟加拉语,其中包括 2.4 亿母语人士。尽管孟加拉语是世界上使用范围第五广的语言,但它被认为是一种“资源匮乏”的语言,现有的预训练语言模型在处理孟加拉语语言处理 (BLP) 任务时举步维艰。本文通过以下方式解决这一问题:(1) 引入 Bangla-Orca (172,000) 和 Bangla-Alpaca (52,000) 这两个包含 224,000 个样本的高质量翻译孟加拉语教学数据集;(2) 利用这些数据集开发 BanglaLlama,这是一个开源的孟加拉语专用法学语言模型 (LLM),包含五个基础变体和教学变体。本研究介绍了相关方法、两个大规模数据集以及全面的基准测试结果,证明了这些数据集和模型在多个基准测试中的有效性。拟议的数据集和模型将成为未来研究广泛使用但“资源匮乏”语言的新标准。