Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ToolACE-R : formation itérative et perfectionnement adaptatif pour l'apprentissage des outils

Created by
  • Haebom

Auteur

Xingshan Zeng, Weiwen Liu, Xu Huang, Zezhong Wang, Lingzhi Wang, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Ruiming Tang, Qun Liu

Contour

Cet article traite de l'apprentissage d'outils, une approche prometteuse pour étendre les capacités des modèles de langage à grande échelle (MLH). Les approches d'apprentissage d'outils existantes se sont principalement concentrées sur la synthèse de données pour affiner les MLH afin d'invoquer efficacement les outils, mais ont largement négligé les méthodes permettant d'exploiter pleinement le potentiel du modèle. Cet article propose ToolACE-R, un nouveau framework intégrant à la fois l'apprentissage itératif sensible au modèle et l'amélioration adaptative. ToolACE-R intègre une procédure d'apprentissage itératif sensible au modèle qui ajuste progressivement les échantillons d'apprentissage en fonction de l'évolution des capacités du modèle afin d'en maximiser le potentiel. De plus, il intègre un corpus d'apprentissage auto-améliorant, soulignant la capacité du MLH à optimiser itérativement l'invocation des outils sans retour externe. De plus, nous introduisons un mécanisme d'auto-amélioration adaptative pour une prolongation efficace du temps de test, permettant au modèle entraîné de décider de manière autonome quand arrêter le processus d'auto-amélioration itérative. Des expériences approfondies sur plusieurs jeux de données de référence démontrent que ToolACE-R atteint des performances compétitives par rapport aux modèles avancés basés sur des API. L'auto-amélioration adaptative peut améliorer efficacement les performances d'invocation des outils. Ces résultats soulignent l'efficacité et la généralisabilité de ToolACE-R et suggèrent des pistes prometteuses pour un apprentissage plus efficace et évolutif des outils.

Takeaways, Limitations

Takeaways:
Nous démontrons que le potentiel du LLM peut être maximisé grâce à une procédure d’apprentissage itératif prenant en compte le modèle qui ajuste les échantillons de formation en fonction des capacités évolutives du modèle.
Nous démontrons l'efficacité d'un corpus de formation auto-améliorant qui optimise les performances d'invocation des outils de LLM sans retour externe.
Nous proposons que l’extension du temps de test puisse être réalisée efficacement grâce à un mécanisme d’auto-amélioration adaptatif.
Nous démontrons expérimentalement que ToolACE-R atteint des performances compétitives par rapport aux modèles avancés basés sur des API.
Limitations:
Cet article ne contient pas de description détaillée des algorithmes spécifiques et des détails d’implémentation de ToolACE-R.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation sur différents types d’outils et de tâches.
Des recherches supplémentaires sont nécessaires pour déterminer les paramètres optimaux du mécanisme d’auto-amélioration adaptative.
La divulgation du code et des données est nécessaire pour garantir la reproductibilité des résultats expérimentaux.
👍