Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FinAgentBench : un ensemble de données de référence pour la recherche d'agents dans les réponses aux questions financières

Created by
  • Haebom

Auteur

Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

Contour

Cet article présente FinAgentBench, un benchmark à grande échelle pour l'évaluation de la recherche d'information par inférence multi-étapes dans le domaine financier. Les méthodes de recherche d'information existantes manquent souvent de précision, car elles nécessitent des inférences fines sur la structure des documents et des connaissances spécifiques au domaine, en plus de la similarité sémantique. FinAgentBench se compose de 3 429 exemples annotés par des experts de sociétés cotées au S&P-100 et évalue la capacité d'un agent LLM à (1) identifier les types de documents les plus pertinents parmi les candidats et (2) localiser avec précision les phrases clés au sein des documents sélectionnés. Cet article sépare explicitement les deux étapes d'inférence afin de prendre en compte les contraintes contextuelles, évalue des modèles de pointe et démontre qu'un réglage fin ciblé peut améliorer significativement les performances de recherche de l'agent. FinAgentBench fournit une base pour l'étude du comportement des agents LLM axés sur la recherche sur des tâches complexes et spécifiques au domaine en finance. Une fois l'étude acceptée, nous publierons l'ensemble de données et prévoyons de l'étendre à l'ensemble du S&P 500 et au-delà.

Takeaways, Limitations

Takeaways:
Nous présentons FinAgentBench, le premier benchmark à grande échelle pour évaluer la recherche d'informations par le raisonnement multi-niveaux en finance.
Fournir un cadre systématique pour évaluer les capacités d'identification du type de document et d'extraction de phrases clés des agents LLM.
Suggérer la possibilité d'améliorer les performances de recherche d'informations basées sur le LLM grâce à un réglage fin axé sur les objectifs.
ÉTablir une base de recherche applicable à des tâches complexes spécifiques à un domaine au-delà de la finance.
Limitations:
Actuellement, seules les données des sociétés du S&P-100 sont incluses. Il faut les étendre au S&P 500 et au-delà.
L'ensemble de données devrait être rendu public après l'acceptation de l'article, mais il est actuellement inaccessible.
Le type et le nombre de modèles évalués peuvent être limités.
👍