Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RLSF : perfectionnement des LLM grâce au feedback symbolique

Created by
  • Haebom

Auteur

Piyush Jha, Prithwish Jana, Pranavkrishna Suresh, Arnav Arora, Vijay Ganesh

Contour

Dans cet article, nous présentons un nouveau paradigme de réglage fin, le retour symbolique par apprentissage par renforcement (RLSF), qui exploite le retour précis d'outils de raisonnement symbolique (par exemple, des démonstrateurs) pour résoudre les problèmes d'inférence et de cohérence logique spécifiques à un domaine dans les modèles de langage à grande échelle (LLM). Le RLSF utilise des certificats de taille polynomiale (par exemple, des preuves) générés par des outils symboliques pour identifier et corriger les erreurs dans les résultats du modèle, fournissant ainsi une orientation au niveau du jeton sans système d'inférence différentiable. Cela comble le fossé entre l'inférence symbolique et le réglage fin du LLM, permettant un alignement précis avec les contraintes spécifiques au domaine et abordant les principales limitations des signaux de récompense conventionnels. Les résultats expérimentaux démontrent que le réglage fin du LLM basé sur le RLSF surpasse les approches existantes sur cinq applications, dont la synthèse de programmes, trois tâches chimiques et la résolution de 24 jeux, démontrant ainsi que les LLM relativement petits surpassent les modèles monopolistiques beaucoup plus grands.

Takeaways, Limitations_

Takeaways:
Un nouveau paradigme de réglage fin LLM (RLSF) utilisant des outils de raisonnement symbolique est présenté
Surmonte les limites des signaux de récompense existants et permet un alignement précis avec les contraintes spécifiques au domaine
Un LLM relativement petit atteint des performances supérieures à celles des grands modèles propriétaires
Des améliorations de performances ont été démontrées dans diverses applications (synthèse de programmes, opérations chimiques, résolution de jeux, etc.)
Limitations:
L’applicabilité du RLSF peut dépendre de la disponibilité d’outils de raisonnement symbolique.
La nécessité de développer et d'intégrer des outils d'inférence symbolique spécifiques à un domaine
Une évaluation supplémentaire des performances de généralisation dans différents domaines et tâches est nécessaire.
👍