Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

Created by
  • Haebom

Auteur

Yaorui Shi, Sihang Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang

Contour

Dans cet article, nous proposons AutoRefine, un nouveau cadre post-apprentissage basé sur l'apprentissage par renforcement pour améliorer la capacité d'inférence des modèles de langage à grande échelle (MLH). Pour résoudre le problème de la récupération d'informations non pertinentes ou bruitées par les méthodes d'inférence augmentées existantes, AutoRefine introduit un nouveau paradigme appelé « récupération-affinement-pensée ». Le modèle filtre, extrait et organise les preuves de manière itérative grâce à une étape explicite d'affinement des connaissances entre les appels de récupération successifs, avant de générer une réponse. De plus, nous intégrons des récompenses personnalisées spécifiques à la récupération, ainsi que des récompenses pour la précision des réponses, grâce à l'optimisation des politiques relatives au groupe. Les résultats expérimentaux obtenus sur des tests de questions-réponses à saut unique et à sauts multiples démontrent qu'AutoRefine surpasse significativement les méthodes existantes, notamment dans les scénarios d'inférence à sauts multiples complexes. Une analyse détaillée démontre qu'AutoRefine effectue des récupérations fréquentes et de haute qualité et synthétise efficacement les preuves.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau paradigme pour améliorer la capacité d’inférence des modèles linguistiques à grande échelle.
Surmonter les limites des méthodes existantes grâce à l’approche « rechercher-affiner-réfléchir ».
Améliore considérablement les performances d’inférence multi-sauts.
Nous présentons une conception de récompense efficace utilisant l’optimisation des politiques relatives au groupe.
Augmenter la transparence dans le processus d’inférence grâce à une recherche de haute qualité et à une synthèse des preuves.
Limitations:
Il est possible que les gains de performances d'AutoRefine soient limités à des benchmarks spécifiques.
Cela peut être coûteux en termes de calcul.
Une évaluation supplémentaire des performances de généralisation sur différents types de questions et d’ensembles de données est nécessaire.
Des explications supplémentaires sur les mécanismes détaillés et les stratégies d’optimisation du processus de purification peuvent être nécessaires.
👍