本論文では、低資源言語の医療分野機械翻訳(MT)評価データセット不足の問題を解決するために、世界保健機関(WHO)の電子学習プラットフォームから抽出された2,978文書、26,824文で構成された並列の束OpenWHOを紹介します。 OpenWHOは専門家によって作成され、専門的に翻訳された資料で構成されており、20以上の言語を含み、そのうち9つは低資源言語です。この論文では、この新しいリソースを活用して最新の大規模言語モデル(LLM)と既存のMTモデルを評価し、LLMが従来のMTモデルよりも優れていることを示しています。具体的には、Gemini 2.5 Flashは、低資源言語テストセットでNLLB-54Bより4.79 ChrFポイントの改善を示しました。さらに、LLMの文脈の活用が精度に与える影響を調査し、文書レベルの翻訳の利点が医療などの専門分野でより顕著であることを発見しました。最後に、低資源言語医療分野のMT研究を奨励するためにOpenWHOの束を公開します。