Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Formation TL : un cadre basé sur les fonctionnalités des tâches pour la formation de grands modèles linguistiques à l'utilisation d'outils
Created by
Haebom
Auteur
Junjie Ye, Yilong Wu, Sixian Li, Yuming Yang, Zhiheng Xi, Tao Gui, Qi Zhang, Xuanjing Huang, Peng Wang, Zhongchao Shi, Jianping Fan, Zhengyin Du
Contour
Cet article porte sur l'amélioration des performances des modèles de langage à grande échelle (MLH) qui utilisent des outils pour interagir avec leur environnement. Les approches existantes de réglage fin par apprentissage supervisé (SFT) reposent sur de grands ensembles de données et souffrent de la limitation liée à la négligence des caractéristiques des tâches. Pour y remédier, les chercheurs ont analysé trois LLM existants et ont constaté que les données d'apprentissage interfèrent avec le comportement d'utilisation des outils, que l'importance des jetons est inégalement répartie et que les erreurs d'invocation des outils sont concentrées dans des catégories spécifiques. Sur la base de ces résultats, les chercheurs proposent TL-Training, un cadre basé sur les caractéristiques des tâches. TL-Training atténue les effets des données d'apprentissage sous-optimales, ajuste dynamiquement la pondération des jetons pour prioriser les jetons importants dans les SFT et optimise un mécanisme de récompense amélioré adapté aux catégories d'erreurs grâce à l'optimisation des politiques proximales. L'entraînement de CodeLLaMA-2-7B et son évaluation sur quatre jeux de tests open source démontrent que, même avec un jeu de données d'entraînement limité (1 217 jetons), TL-Training atteint des performances d'utilisation des outils comparables, voire supérieures, à celles des LLM open source et fermés. De plus, il fournit un paradigme évolutif et efficace pour l'entraînement à l'utilisation des outils dans les LLM, améliorant ainsi la robustesse dans les environnements bruyants et les performances générales des tâches. Le code et les données sont disponibles à l' adresse https://github.com/Junjie-Ye/TL-Training .
Nous présentons un cadre de formation efficace (TL-Training) qui permet d'obtenir d'excellentes performances d'utilisation des outils même avec des données de formation limitées.
◦
Robustesse améliorée dans les environnements bruyants et performances générales des tâches améliorées.
◦
Présentation d'un paradigme évolutif et efficace pour la formation à l'utilisation des outils en LLM.
◦
Analyser la méthode SFT existante Limitations et suggérer des mesures d’amélioration.
•
Limitations:
◦
Les performances de TL-Training peuvent être limitées à des LLM et à des ensembles de données spécifiques.
◦
La vérification des performances de généralisation est nécessaire pour divers outils et types de tâches.
◦
Des études expérimentales et comparatives plus approfondies sont nécessaires pour vérifier les performances et la polyvalence de la généralisation.
◦
La petite taille des données de formation utilisées nécessite des recherches supplémentaires sur la généralisabilité dans des scénarios d’application à grande échelle dans le monde réel.