Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering

Created by
  • Haebom

作者

Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

概要

本論文は、金融分野における多段階推論による情報検索を評価するための大規模ベンチマークであるFinAgentBenchを提示します。従来の情報検索方法は、意味的な類似性だけでなく、文書構造と特定のドメイン知識の詳細な推論を必要としますが、精度が低下することがよくあります。 FinAgentBench は、S&P-100 上場企業に関する 3,429 の専門家のコメントの例で構成されており、LLM エージェントが (1) 候補の中で最も関連性の高い文書タイプを識別し、 (2) 選択した文書内の主要なフレーズを正確に見つけることができるかどうかを評価します。 2つの推論ステップを明確に分離してコンテキスト制限を解決し、金融分野で検索指向のLLM動作を定量的に理解するための基盤を提供します。最先端のモデルを評価し、目標指向の微調整によってエージェント検索のパフォーマンスを大幅に向上させることができます。

Takeaways、Limitations

Takeaways:
金融分野における多段階推論ベースの情報検索のための最初の大規模ベンチマークFinAgentBenchの提示。
LLMエージェントの文書タイプの識別と主要なフレーズ抽出能力の評価
コンテキスト制限問題解決のための2つの推論ステップ分離設計
目標指向の微調整による性能向上の可能性の提示
複雑なドメイン固有のタスクにおける検索指向LLM動作研究ベースの提供
Limitations:
FinAgentBenchはS&P-100上場企業に限られており、一般化の可能性に関するさらなる研究が必要。
評価は特定のタイプのLLMエージェントに限定することができ、他のタイプのエージェントまたはアプローチの一般化可能性のレビューが必要です。
専門家の注釈データの規模と品質によっては、ベンチマークの信頼性が影響を受ける可能性があります。
👍