每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

OpenWHO:用于低资源语言健康翻译的文档级平行语料库

Created by
  • Haebom

作者

拉斐尔·梅尔克斯、汉娜·索米宁、特雷弗·科恩、叶卡捷琳娜·维洛莫娃

大纲

本文介绍了一个名为 OpenWHO 的文档级平行语料库,旨在解决机器翻译 (MT) 中,尤其是在医疗保健领域,缺乏针对低资源语言的评估数据集的问题。该语料库由世界卫生组织 (WHO) 电子学习平台上的专家撰写和专业翻译的材料组成。它包含 2,978 份文档和 26,824 个句子,支持 20 多种语言,其中 9 种是低资源语言。利用这一新资源,我们评估了最先进的大规模语言模型 (LLM) 和传统的机器翻译模型。结果表明,LLM 的表现始终优于传统的机器翻译模型,Gemini 2.5 Flash 在低资源测试集上比 NLLB-54B 提高了 4.79 个 ChrF 点。此外,我们还研究了 LLM 语境化对准确率的影响,证明了文档级翻译在医疗保健等专业领域的显著优势。 OpenWHO 语料库的推出是为了鼓励医疗保健领域的低资源机器翻译研究。

Takeaways, Limitations

Takeaways:
我们提出了 OpenWHO,这是一个用于低资源语言健康机器翻译研究的新数据集。
我们证明 LLM 在低资源环境中的表现优于传统的 MT 模型。
我们发现文档级翻译有助于提高专业领域(健康)的法学硕士的表现。
我们通过向研究界提供开源数据集来鼓励进一步的研究。
Limitations:
论文中没有明确提及具体的Limitations。
👍