Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

OpenWHO: A Document-Level Parallel Corpus for Health Translation in Low-Resource Languages

Created by
  • Haebom

作者

Rapha el Merx, Hanna Suominen, Trevor Cohn, Ekaterina Vylomova

概要

本論文では、低資源言語の医療分野機械翻訳(MT)評価データセット不足の問題を解決するために、世界保健機関(WHO)の電子学習プラットフォームから抽出された2,978文書、26,824文で構成された並列の束OpenWHOを紹介します。 OpenWHOは専門家によって作成され、専門的に翻訳された資料で構成されており、20以上の言語を含み、そのうち9つは低資源言語です。この論文では、この新しいリソースを活用して最新の大規模言語モデル(LLM)と既存のMTモデルを評価し、LLMが従来のMTモデルよりも優れていることを示しています。具体的には、Gemini 2.5 Flashは、低資源言語テストセットでNLLB-54Bより4.79 ChrFポイントの改善を示しました。さらに、LLMの文脈の活用が精度に与える影響を調査し、文書レベルの翻訳の利点が医療などの専門分野でより顕著であることを発見しました。最後に、低資源言語医療分野のMT研究を奨励するためにOpenWHOの束を公開します。

Takeaways、Limitations

Takeaways:
低資源言語医療分野の機械翻訳のための新しい高品質の並列パッチOpenWHOを提供します。
LLMが従来のMTモデルより低資源言語医療分野の機械翻訳において性能に優れていることを実験的に証明した。
文書レベルの翻訳の利点が専門分野、特に医療分野でより大きいことを示しています。
OpenWHOの束の公開により、低資源言語医療分野のMT研究を活性化できます。
Limitations:
OpenWHO の束のサイズは、他の大規模な束に比べて比較的小さい場合があります。
評価に使用されるLLMおよびMTモデルは限られている可能性があります。さまざまなモデルの追加の実験が必要な場合があります。
医療分野の特殊な語彙および文法的特徴の詳細な分析が不足する可能性があります。
👍