Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Analyse du raisonnement intégré aux outils : étude et analyse empiriques

Created by
  • Haebom

Auteur

Yufeng Zhao, Junnan Liu, Hongwei Liu, Dongsheng Zhu, Yuan Shen, Songyang Zhang, Kai Chen

Contour

Cet article évalue de manière exhaustive l'efficacité de l'inférence intégrée aux outils (TIR) ​​pour améliorer les performances d'inférence des modèles linguistiques à grande échelle (LLM). Pour surmonter les limites des LLM, qui peinent à effectuer des calculs précis avec les méthodes conventionnelles de chaîne de pensée (CoT), nous exploitons TIR et présentons le benchmark ReasonZoo, qui englobe neuf catégories d'inférence différentes. De plus, nous proposons de nouvelles mesures pour évaluer l'efficacité de l'inférence : le coût sensible aux performances (PAC) et l'aire sous la courbe performance-coût (AUC-PCC). Les résultats expérimentaux montrent que les modèles basés sur TIR surpassent les modèles non basés sur TIR, tant pour les tâches mathématiques que non mathématiques. De plus, les mesures PAC et AUC-PCC sont améliorées, démontrant une efficacité d'inférence accrue. Cela suggère que TIR peut améliorer la capacité des LLM à résoudre des tâches d'inférence complexes.

Takeaways, Limitations

Takeaways:
Nous démontrons expérimentalement que l’inférence intégrée à l’outil (TIR) ​​améliore la capacité de raisonnement globale des LLM.
L’efficacité du TIR a été confirmée dans les problèmes mathématiques et non mathématiques.
Les nouvelles mesures proposées PAC et AUC-PCC sont utiles pour évaluer l’efficacité de l’inférence.
Le TIR réduit la « réflexion excessive » dans le LLM et rend le processus de raisonnement plus efficace.
Limitations:
Des recherches supplémentaires sont nécessaires sur la généralisabilité et l’évolutivité du benchmark ReasonZoo.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du TIR à différents types d’outils et de LLM.
Des recherches supplémentaires sont nécessaires sur l’interprétation et l’utilisation des nouveaux indices proposés PAC et AUC-PCC.
👍