Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Utility-Focused LLM Annotation for Retrieval and Retrieval-Augmented Generation

Created by
  • Haebom

作者

Hengran Zhang, Minghao Tang, Keping Bi, Jiafeng Guo, Shihao Liu, Daiting Shi, Dawei Yin, Xueqi Cheng

概要

この論文では、大規模言語モデル(LLM)を活用して文書の使いやすさを注釈し、検索および検索拡張生成(RAG)システムトレーニングで高価な手動注釈への依存を減らす方法を探ります。検索関連性と生成的な有用性の違いを解決するために、LLMを使用して文書の有用性を注釈付けします。クエリごとに複数の肯定的なサンプルを効果的に活用するために、それらの合計限界尤度を最大化する新しい損失関数を提案します。 Qwen-2.5-32Bモデルを使用してMS MARCOデータセットに有用性を注釈し、MS MARCOとBEIRの検索実験とMS MARCO QA、NQ、HotpotQAのRAG実験を実行します。実験の結果、LLMによって生成された注釈は、手動注釈または下位QA指標でのみ訓練されたモデルと比較して、ドメイン外の検索性能を向上させ、RAG結果を改善することを示しました。さらに、LLM アノテーションを手動アノテーションの 20% と組み合わせて、パッシブアノテーション全体を使用したのと同様のパフォーマンスを達成しました。この研究は、新しい口座にQAシステムを初期化するためのLLM注釈を活用するための包括的なアプローチを提供します。

Takeaways、Limitations

Takeaways:
LLMを活用した文書の使いやすさアノテーションは、手動アノテーションへの依存を減らし、費用対効果の高いQAシステムの構築を可能にします。
LLM アノテーションは、ドメイン外の検索パフォーマンスと RAG パフォーマンスの向上に貢献します。
少量の手動注釈とLLM注釈を組み合わせることで、高いパフォーマンスを達成できます。
新しいフレームのQAシステムを初期化するための効果的な方法を紹介します。
Limitations:
LLM アノテーションの精度と信頼性に関するさらなる研究が必要です。
特定のLLMとデータセットの結果の一般化の可能性を検証する必要があります。
さまざまな種類の質問とデータセットの追加の実験が必要です。
👍