Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering

Created by
  • Haebom

作者

Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

概要

本論文は、金融分野における多段階推論による情報検索を評価するための大規模ベンチマークであるFinAgentBenchを提示します。既存の情報検索方法は、意味的な類似性だけでなく、文書構造と特定のドメイン知識に対する微細な推論を必要とするため、精度が低下することが多い。 FinAgentBenchは、S&P-100上場企業の3,429のエキスパートコメントの例で構成されており、LLMエージェントが(1)候補の中で最も関連性の高い文書タイプを識別し、(2)選択した文書内のコアフレーズを正確に見つけることができるかどうかを評価します。本論文は,2つの推論ステップを明示的に分離してコンテキスト制限を解決し,最先端モデルを評価し,目標指向の微調整によりエージェント検索性能を大幅に向上できることを示した。 FinAgentBenchは、金融分野の複雑でドメイン固有の作業における検索指向のLLM動作を研究するための基盤を提供します。論文受諾後、データセットを公開的に配布し、今後S&P 500全体以上でデータセットを拡張して共有する計画だ。

Takeaways、Limitations

Takeaways:
金融分野における多段階推論による情報検索を評価するための最初の大規模ベンチマークであるFinAgentBenchの提示。
LLMエージェントの文書タイプを識別し、コアフレーズ抽出能力を評価するための体系的なフレームワークを提供します。
目標指向の微調整によるLLMベースの情報検索性能の向上の可能性の提示
金融分野を超えて他の複雑なドメイン固有のタスクにも適用可能な研究ベースの準備。
Limitations:
現在、S&P-100企業のデータのみを含む、S&P 500以上の拡張が必要です。
論文を受け入れた後、データセットを公開する予定で、現在のデータセットにアクセスできません。
評価されたモデルの種類と数は限られている可能性があります。
👍