Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rechercher et affiner pendant la réflexion : recherche autonome et raisonnement augmenté des LLM

Created by
  • Haebom

Auteur

Yaorui Shi, Sihang Li, Chang Wu, Zhiyuan Liu, Junfeng Fang, Hengxing Cai, An Zhang, Xiang Wang

Contour

Cet article propose AutoRefine, un nouveau cadre d'apprentissage par renforcement pour améliorer les performances d'inférence des modèles de langage à grande échelle (MLH). Pour résoudre le problème des méthodes d'inférence augmentées par la recherche existantes qui récupèrent des informations non pertinentes ou bruitées, AutoRefine introduit un paradigme de « recherche et raffinement pendant la réflexion », réalisant des processus itératifs de recherche et d'affinement. Cela permet au modèle de filtrer, d'extraire et d'organiser les preuves de manière itérative avant de générer une réponse. De plus, il optimise les politiques relatives au groupe en exploitant les récompenses spécifiques à la recherche et la précision des réponses. Les résultats expérimentaux obtenus sur des tests de questions-réponses à saut unique et à sauts multiples démontrent qu'AutoRefine surpasse significativement les méthodes existantes, en particulier dans les scénarios d'inférence à sauts multiples complexes. Une analyse détaillée démontre qu'AutoRefine effectue des recherches fréquentes et de haute qualité et synthétise efficacement les preuves.

Takeaways, Limitations

Takeaways:
Présentation d'un cadre efficace basé sur l'apprentissage par renforcement pour améliorer la capacité d'inférence du LLM.
Gestion efficace du processus de recherche et d'affinement grâce au paradigme « rechercher et affiner pendant la réflexion ».
Améliorations des performances grâce à une combinaison de récompenses spécifiques à la recherche et de récompenses de précision des réponses.
Démontre des performances supérieures par rapport aux méthodes existantes dans les problèmes d'inférence multi-sauts.
Limitations:
Une analyse plus approfondie des facteurs contribuant à l’amélioration des performances d’AutoRefine est nécessaire.
ÉTant donné qu’il s’agit de résultats d’évaluation des performances pour un ensemble de données de référence spécifique, une vérification supplémentaire de la généralisabilité est nécessaire.
Des recherches supplémentaires sont nécessaires sur l’efficacité et l’évolutivité dans les environnements d’application réels.
👍