Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CARFT : Stimuler le raisonnement LLM via l'apprentissage contrastif avec un réglage fin renforcé basé sur une chaîne de pensée annotée

Created by
  • Haebom

Auteur

Wenqiao Zhu, Ji Liu, Rongjuncheng Zhang, Haipang Wu et Yulun Zhang

Contour

Cet article propose l'apprentissage contrastif avec réglage fin renforcé basé sur les CoT annotés (\TheName{}), une nouvelle méthode de réglage fin basée sur l'apprentissage par renforcement pour améliorer la capacité d'inférence des modèles linguistiques à grande échelle (LLM). Pour résoudre les problèmes d'échantillonnage instable des chemins d'inférence et de négligence des processus de pensée annotés (CoT) dans les méthodes existantes basées sur l'apprentissage par renforcement, ainsi que la surimportance accordée aux CoT dans les approches SFT existantes, nous apprenons des représentations pour chaque CoT et concevons de nouveaux signaux contrastifs pour guider le processus de réglage fin. \TheName{} exploite pleinement les CoT annotés tout en intégrant des signaux d'apprentissage non supervisés pour stabiliser le processus de réglage fin. Les résultats expérimentaux utilisant trois méthodes de base, deux modèles de base et deux jeux de données démontrent les avantages significatifs de \TheName{} en termes de robustesse, de performance (jusqu'à 10,15 % d'amélioration) et d'efficacité (jusqu'à 30,62 % d'amélioration).

Takeaways, Limitations

Takeaways:
Présentation d'une nouvelle méthode efficace pour améliorer les performances d'inférence du LLM.
Résoudre les problèmes d'instabilité et d'effondrement du modèle des méthodes existantes basées sur RL, qui sont Limitations.
Utilisez efficacement le CoT annoté pour améliorer les performances et augmenter l’efficacité.
Mise en œuvre d'un processus de réglage fin stable et efficace grâce à l'apprentissage contrastif.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
D’autres expériences sur différents LLM et ensembles de données sont nécessaires.
Il est possible que l’amélioration des performances de \TheName{} soit limitée à des ensembles de données ou des modèles spécifiques.
Augmentation potentielle du coût de calcul en raison de la complexité de l’algorithme.
👍