Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Retrieval-Augmented Machine Translation with Unstructured Knowledge

Created by
  • Haebom

作者

Jiaan Wang, Fandong Meng, Yingxue Zhang, Jie Zhou

概要

この論文では、非定型文書を活用した検索拡張機械翻訳(RAG-MT)を研究します。従来の研究では、主にペアで構成された機械翻訳の丸みや知識グラフから情報を検索してLLMのパフォーマンスを向上させましたが、この論文はさまざまな言語の非定型文書に存在する膨大な世界知識を活用することに焦点を当てています。この目的のために、研究者はGPT-4と人間の翻訳者を介して169,000の機械翻訳サンプルと多言語文書で構成された新しいベンチマークRAGtransを構築しました。さらに、追加のラベリングなしで既存の多言語語束を活用して、LLMが多言語文書の情報を翻訳に活用するように学習するマルチタスク学習方法を提案します。実験の結果、提案された方法は、英語 - 中国語および英語 - ドイツ語翻訳でBLEUおよびCOMETスコアを大幅に向上させたことを示しています。最後に、現在のLLMsがこれらのタスクに直面する困難を分析します。

Takeaways、Limitations

Takeaways:
非定型文書を活用したRAG-MTの可能性を示す新しいベンチマークRAGtrans提示
追加のラベリングなしで多言語文書情報を活用するための効果的なマルチタスク学習方法の提案
英語 - 中国語と英語 - ドイツ語の翻訳におけるBLEUとCOMETのスコアの大幅な向上。
現在、LLMsがRAG-MTに直面する困難の分析を提供する。
Limitations:
RAGtransベンチマークの規模をさらに拡大する必要があります。
提案されたマルチタスク学習方法の一般化性能に関するさらなる研究の必要性
さまざまな言語の組み合わせに対する実験は限られています。
LLMs が RAG-MT に直面する困難の詳細な分析が必要である。
👍