Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SLR : Synthèse automatisée pour un raisonnement logique évolutif

Created by
  • Haebom

Auteur

Lukas Helff, Ahmad Omar, Felix Friedrich, Antonia W ust, Hikaru Shindo, Rupert Mitchell, Tim Woydt, Patrick Schramowski, Wolfgang Stammer, Kristian Kersting

Contour

Cet article présente le Raisonnement Logique Scalable (RLS), un cadre complet pour l'évaluation et l'entraînement systématiques de modèles linguistiques à grande échelle (MLH). À partir des spécifications de tâches de l'utilisateur, le RLS génère automatiquement (i) des instructions pour les tâches de raisonnement inductif, (ii) des programmes de vérification exécutables (avec des récompenses vérifiables) pour les résultats du modèle, et (iii) des règles de vérité terrain potentielles. Ce processus est entièrement automatisé et évolutif, ne nécessite aucune annotation humaine et permet un contrôle précis de la difficulté des tâches. Grâce au RLS, nous avons créé le RLS-Bench, un benchmark composé de 19 000 instructions organisées en 20 niveaux de programme de complexité relationnelle, arithmétique et récursive croissante. Les évaluations à grande échelle montrent que les LLM de pointe génèrent facilement des règles syntaxiquement valides, mais ne parviennent souvent pas à effectuer un raisonnement logique précis. Si les LLM d'inférence récents ont amélioré leurs performances, leur coût de calcul en temps de test est très élevé, dépassant 300 $ pour 1 000 instructions. Enfin, l'apprentissage du programme via SLR a doublé la précision du SLR-Bench de Llama-3-8B, atteignant un niveau comparable à celui de Gemini-Flash-Thinking pour un coût de calcul nettement inférieur. De plus, cette capacité d'inférence est généralisable à divers benchmarks existants, soulignant l'efficacité du SLR pour l'inférence en aval.

Takeaways, Limitations

Takeaways:
Nous présentons SLR, un cadre efficace et évolutif pour évaluer et améliorer les compétences de raisonnement logique dans les LLM.
Créer un système automatisé qui génère automatiquement des invites, des programmes de validation et des règles de vérité fondamentale sans intervention humaine.
Démontrer empiriquement que les compétences de raisonnement du LLM peuvent être considérablement améliorées grâce à l'apprentissage du programme.
Nous fournissons un nouveau benchmark à grande échelle appelé SLR-Bench pour évaluer objectivement les capacités d'inférence des LLM.
Obtenez des performances similaires à celles des modèles les plus performants existants à un coût inférieur.
Nous démontrons que les capacités d’inférence améliorées se généralisent à une variété de repères.
Limitations:
Actuellement, SLR-Bench se concentre sur un type spécifique de problème de raisonnement logique, et des recherches supplémentaires sont nécessaires pour généraliser ses performances à différents types de problèmes de raisonnement.
Le coût élevé du calcul des temps de test pour les LLM de haute performance est toujours un domaine qui nécessite des améliorations à l’avenir.
ÉTant donné que les performances du SLR peuvent dépendre de l’architecture LLM spécifique, d’autres expériences sur différentes architectures sont nécessaires.
👍