Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FinAgentBench : un ensemble de données de référence pour la recherche d'agents dans les réponses aux questions financières

Created by
  • Haebom

Auteur

Chanyeol Choi, Jihoon Kwon, Alejandro Lopez-Lira, Chaewoon Kim, Minjae Kim, Juneha Hwang, Jaeseon Ha, Hojun Choi, Suyeol Yun, Yongjin Kim, Yongjae Lee

Contour

Cet article présente FinAgentBench, un benchmark à grande échelle pour l'évaluation de la recherche d'information par inférence multi-étapes dans le domaine financier. Les méthodes de recherche d'information existantes nécessitent des inférences détaillées sur la structure des documents et les connaissances spécifiques au domaine, ainsi que sur la similarité sémantique, mais souffrent souvent d'une faible précision. FinAgentBench se compose de 3 429 exemples annotés par des experts de sociétés du S&P-100 et évalue la capacité d'un agent LLM à (1) identifier les types de documents les plus pertinents parmi les candidats et (2) localiser avec précision les phrases clés au sein des documents sélectionnés. En séparant clairement les deux étapes d'inférence, nous abordons les limites contextuelles et fournissons les bases d'une compréhension quantitative du comportement des LLM axés sur la recherche dans le domaine financier. Nous évaluons des modèles de pointe et démontrons qu'un réglage fin axé sur les objectifs peut améliorer significativement les performances de recherche des agents.

Takeaways, Limitations

Takeaways:
Nous présentons FinAgentBench, le premier benchmark à grande échelle pour la recherche d'informations basée sur l'inférence en plusieurs étapes dans le secteur financier.
ÉValuer la capacité de l'agent LLM à identifier les types de documents et à extraire des phrases clés.
Une séparation en deux étapes des étapes d'inférence pour résoudre les problèmes limités par le contexte.
Suggérer la possibilité d’une amélioration des performances grâce à un réglage fin axé sur les objectifs.
Fournir une base pour la recherche sur le comportement LLM centré sur la recherche dans des tâches complexes spécifiques à un domaine.
Limitations:
FinAgentBench est limité aux sociétés cotées au S&P-100, ce qui nécessite des recherches supplémentaires sur la généralisabilité.
L’évaluation peut être limitée à un type spécifique d’agent LLM, et la généralisabilité à d’autres types d’agents ou d’approches doit être examinée.
La fiabilité d’un benchmark peut être affectée par la taille et la qualité des données d’annotation des experts.
👍