この論文では、非定型文書を活用した検索拡張機械翻訳(RAG-MT)を研究します。従来の研究では、主にペアで構成された機械翻訳の丸みや知識グラフから情報を検索してLLMのパフォーマンスを向上させましたが、この論文はさまざまな言語の非定型文書に存在する膨大な世界知識を活用することに焦点を当てています。この目的のために、研究者はGPT-4と人間の翻訳者を介して169,000の機械翻訳サンプルと多言語文書で構成された新しいベンチマークRAGtransを構築しました。さらに、追加のラベリングなしで既存の多言語語束を活用して、LLMが多言語文書の情報を翻訳に活用するように学習するマルチタスク学習方法を提案します。実験の結果、提案された方法は、英語 - 中国語および英語 - ドイツ語翻訳でBLEUおよびCOMETスコアを大幅に向上させたことを示しています。最後に、現在のLLMsがこれらのタスクに直面する困難を分析します。