Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FinAgentBench: A Benchmark Dataset for Agentic Retrieval in Financial Question Answering

Created by
  • Haebom

作者

Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

FinAgentBench:金融分野における多段階推論による情報検索評価ベンチマーク

概要

本論文は、金融分野における多段階推論による情報検索能力を評価するための大規模ベンチマークであるFinAgentBenchを紹介する。 FinAgentBenchは、S&P 500エンタープライズ関連の26,000のエキスパートアノテーションの例で構成されており、大規模言語モデル(LLM)エージェントが(1)関連文書タイプを識別し、(2)選択した文書内で主要なフレーズを正確に見つけることができるかどうかを評価します。このベンチマークは、金融分野の複雑な作業のためにLLMの検索中心の行動を研究するための基盤を提供します。

Takeaways、Limitations

Takeaways:
金融分野における多段階推論による情報検索能力を評価する最初の大規模ベンチマークの提供
LLMエージェントの(1)文書タイプの識別と(2)コアフレーズ抽出能力の評価のためのフレームワークの提示。
金融分野における検索指向LLMの挙動の定量的分析を提供
特定のファインチューニングによってエージェント検索のパフォーマンスを大幅に向上させることができることを実証。
Limitations:
論文に具体的なLimitationsは記載されていない。 (今後の論文内容を通じて確認が必要)
👍