Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

The Cross-Lingual Cost: Retrieval Biases in RAG over Arabic-English Corpora

Created by
  • Haebom

作者

Chen Amiraz, Yaroslav Fyodorov, Elad Haramaty, Zohar Karnin, Liane Lewin-Ey​​tan

概要

本論文は、アラビア語 - 英語クロス - 言語リトリーバル - 増強生成(RAG)を研究し、実際の企業データセットに基づくドメイン固有のベンチマークを使用して既存の研究の限界を克服することを目的としています。特に、ユーザークエリとサポートドキュメントの言語が異なる場合、検索パフォーマンスの低下が発生することを発見し、これを解決するための2つの簡単な検索戦略を提示し、パフォーマンスを向上させた。

Takeaways、Limitations

Takeaways:
Cross-lingual RAGで検索が重要なボトルネックであることを明らかにした。
ドメイン固有の環境で言語間の検索が難しいことを確認してください。
検索パフォーマンスを向上させるための簡単な戦略を提示します(言語均等検索、クエリ翻訳)。
実際のRAGアプリケーションにおける多言語検索の改善の可能性を示しています。
Limitations:
提示された検索戦略がすべての言語ペアに一般化できるかどうかについてのさらなる研究が必要です。
特定のドメインと言語のペアに限定された研究かもしれません。
改善された検索戦略が複雑な環境でも効果的であることを検証する必要性。
👍