Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TableMind : un agent programmatique autonome pour le raisonnement sur table augmenté par des outils

Created by
  • Haebom

Auteur

Chuang Jiang (Laboratoire clé d'État d'intelligence cognitive, Université des sciences et technologies de Chine, Hefei, Chine), Mingyue Cheng (Laboratoire clé d'État d'intelligence cognitive, Université des sciences et technologies de Chine, Hefei, Chine), Xiaoyu Tao (Laboratoire clé d'État d'intelligence cognitive, Université des sciences et technologies de Chine, Hefei, Chine), Qingyang Mao (Laboratoire clé d'État d'intelligence cognitive, Université des sciences et technologies de Chine, Hefei, Chine), Jie Ouyang (Laboratoire clé d'État d'intelligence cognitive, Université des sciences et technologies de Chine, Hefei, Chine), Qi Liu (Laboratoire clé d'État d'intelligence cognitive, Université des sciences et technologies de Chine, Hefei, Chine)

Contour

Cet article aborde l'inférence tabulaire, essentielle à l'exploitation de données structurées dans des domaines tels que la finance, la santé et la recherche scientifique. Les méthodes existantes basées sur des modèles de langage à grande échelle (LLM) peinent à effectuer des calculs numériques complexes et précis, tandis que l'inférence intégrée aux outils améliore la précision des calculs grâce à l'exécution de code, mais repose sur des modèles rigides et un apprentissage supervisé, et manque d'adaptabilité autonome. Dans cet article, nous présentons TableMind, un agent d'inférence tabulaire basé sur un LLM, capable d'invoquer de manière autonome des outils multi-étapes, d'écrire et d'exécuter du code d'analyse de données dans un environnement sandbox sécurisé, et d'adapter les stratégies par la planification et l'auto-réflexion. En nous appuyant sur un puissant modèle de langage pré-entraîné, nous utilisons une approche de réglage fin en deux étapes combinant l'apprentissage supervisé pour des chemins d'inférence de haute qualité et l'apprentissage par renforcement pour optimiser les stratégies multi-objectifs. Plus précisément, nous proposons l'optimisation des politiques tenant compte du rang (RAPO), qui augmente les pondérations de mise à jour lorsque la probabilité de sortie d'un chemin de haute qualité est inférieure à celle d'un chemin de faible qualité. Des expériences approfondies sur plusieurs benchmarks clés démontrent que TableMind surpasse les modèles de base concurrents, démontrant des améliorations significatives à la fois en termes de précision d'inférence et de précision de calcul.

Takeaways, Limitations

Takeaways:
TableMind, un agent d'inférence de table basé sur LLM, surmonte les limitations des méthodes existantes avec une invocation d'outils autonome en plusieurs étapes, une exécution de code sécurisée et des capacités d'adaptation de stratégie.
L’algorithme RAPO proposé améliore l’efficacité de l’apprentissage par renforcement, ce qui donne des résultats d’inférence plus précis.
Il démontre son potentiel pour des applications concrètes en surpassant les modèles de référence concurrents dans divers benchmarks.
Limitations:
Les améliorations de performances de TableMind peuvent être limitées à des jeux de données de référence spécifiques. Des évaluations de performances de généralisation sont nécessaires pour différents types de données tabulaires et problèmes d'inférence.
Des recherches supplémentaires sont nécessaires sur les paramètres optimaux et le coût de calcul de l’algorithme RAPO.
Bien que l’exécution du code se déroule dans un environnement sandbox sécurisé, une analyse et une correction des vulnérabilités de sécurité peuvent être nécessaires pour faire face à la possibilité d’exécution de code malveillant.
Une analyse plus approfondie des limites de l’autoréflexion et de l’adaptabilité stratégique du modèle est nécessaire.
👍