Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

FutureX : un benchmark avancé en direct pour les agents LLM en matière de prédiction du futur

Created by
  • Haebom

Auteur

Zhiyuan Zeng, Jiashuo Liu, Siyuan Chen, Tianci He, Yali Liao, Yixiao Tian, ​​​​Jinpeng Wang, Zaiyuan Wang, Yang Yang, Lingyue Yin, Mingren Yin, Zhenwei Zhu, Tianle Cai, Zehui Chen, Jiecao Chen, Yantao Du, Xiang Gao, Jiacheng Guo, Liang Hu, Jianpeng Jiao, Xiangsheng Li, Jingkai Liu, Shuang Ni, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xin Zhou, José Blanchet, Xipeng Qiu, Mengdi Wang et Wenhao Huang.

Contour

FutureX est le premier benchmark dynamique, à grande échelle et en temps réel pour évaluer les capacités prédictives des agents LLM. Il aborde les tâches prédictives nécessitant une expertise humaine, telles que la collecte et l'interprétation de volumes massifs d'informations dynamiques, l'intégration de sources de données diverses, la prise en compte de l'incertitude et l'adaptation des prévisions aux tendances émergentes. Les processus automatisés de collecte de requêtes et de réponses empêchent la contamination des données et permettent des mises à jour quotidiennes en temps réel. Vingt-cinq modèles LLM/agent (incluant l'inférence, la recherche et l'intégration d'outils externes) sont évalués afin d'analyser le raisonnement adaptatif et les performances dans des environnements dynamiques. Les modes de défaillance et les facteurs de dégradation des performances des agents, tels que la vulnérabilité aux fausses pages web et la validité temporelle, sont analysés en profondeur. L'objectif est d'établir une base d'évaluation dynamique et fiable pour le développement d'agents LLM de niveau expert, capables de raisonnement complexe et de pensée prédictive.

Takeaways, Limitations

Takeaways:
Fournir le premier benchmark dynamique en temps réel à grande échelle pour évaluer les capacités prédictives des agents LLM.
Contribuer au développement de la technologie de prédiction future grâce à la comparaison des performances et à l'analyse de divers modèles LLM/agent.
Analyse approfondie des modes de défaillance des agents et des facteurs de dégradation des performances pour suggérer des directions d'amélioration du modèle.
Fournir des critères d’évaluation fiables grâce à des mises à jour de données en temps réel et à des systèmes de prévention de la contamination des données.
Limitations:
Les types et le nombre de modèles actuellement inclus dans l’indice de référence peuvent être limités.
Des vulnérabilités aux fausses pages Web et à la désinformation existent toujours, et elles ne seront peut-être pas complètement résolues.
Difficultés techniques potentielles et coûts associés aux mises à jour et à la gestion des données en temps réel.
Il est possible qu’il ne prenne pas pleinement en compte les complexités de la prédiction de l’avenir.
👍