Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Raisonnement logique avec modèles de récompense des résultats pour la mise à l'échelle du temps de test

Created by
  • Haebom

Auteur

Ramya Keerthy Thatikonda, Wray Buntine, Ehsan Shareghi

Contour

Cet article présente une nouvelle approche pour améliorer la capacité de raisonnement déductif des modèles de langage à grande échelle (MLH). En nous appuyant sur des recherches antérieures combinant l'extension du temps de test et des modèles de compensation de résultat ou de processus, nous proposons des modèles de compensation de résultat (MRO) spécialisés dans le raisonnement déductif. Pour entraîner les MRO, nous générons des données par chaîne de pensée (CdP) à partir d'échantillons simples et multiples, et proposons une nouvelle « technique de génération d'écho » qui exploite la propension à l'erreur des MRO pour générer des données d'entraînement supplémentaires. Cette technique génère des données d'entraînement contenant une plus grande variété de types d'erreurs que les méthodes CdP conventionnelles. Les résultats expérimentaux montrent que les MRO entraînés avec CdP et des données augmentées par écho améliorent les performances de quatre MRO différents sur les jeux de données FOLIO, JustLogic et ProverQA.

Takeaways, Limitations

Takeaways:
Nous présentons de nouveaux modèles de récompense de résultat (ORM) et des techniques de formation pour améliorer les performances du LLM en raisonnement déductif.
Surmonter les limites des méthodes CoT existantes et générer des données de formation contenant divers types d'erreurs grâce à des techniques de génération d'écho.
Vérification expérimentale des améliorations de performances de divers LLM sur les ensembles de données FOLIO, JustLogic et ProverQA.
Limitations:
Des recherches supplémentaires sont nécessaires sur la généralisabilité des techniques de génération d’écho et leur applicabilité à d’autres types de problèmes d’inférence.
Il est possible que les améliorations de performances des ORM proposés soient limitées à des ensembles de données ou LLM spécifiques.
Des techniques supplémentaires d’augmentation des données sont nécessaires pour traiter de manière exhaustive divers types d’erreurs.
👍