Dans cet article, nous présentons un nouveau paradigme de réglage fin, le retour symbolique par apprentissage par renforcement (RLSF), qui exploite le retour précis d'outils de raisonnement symbolique (par exemple, des démonstrateurs) pour résoudre les problèmes d'inférence et de cohérence logique spécifiques à un domaine dans les modèles de langage à grande échelle (LLM). Le RLSF utilise des certificats de taille polynomiale (par exemple, des preuves) générés par des outils symboliques pour identifier et corriger les erreurs dans les résultats du modèle, fournissant ainsi une orientation au niveau du jeton sans système d'inférence différentiable. Cela comble le fossé entre l'inférence symbolique et le réglage fin du LLM, permettant un alignement précis avec les contraintes spécifiques au domaine et abordant les principales limitations des signaux de récompense conventionnels. Les résultats expérimentaux démontrent que le réglage fin du LLM basé sur le RLSF surpasse les approches existantes sur cinq applications, dont la synthèse de programmes, trois tâches chimiques et la résolution de 24 jeux, démontrant ainsi que les LLM relativement petits surpassent les modèles monopolistiques beaucoup plus grands.