Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SPIRAL : Le jeu autonome sur des jeux à somme nulle encourage le raisonnement via l'apprentissage par renforcement multi-agents et multi-tours

Created by
  • Haebom

Auteur

Bo Liu, Leon Guertler, Simon Yu, Zichen Liu, Penghui Qi, Daniel Balcells, Mickel Liu, Cheston Tan, Weiyan Shi, Min Lin, Wee Sun Lee, Natasha Jaques

Contour

Dans cet article, nous proposons SPIRAL, un nouveau cadre permettant aux modèles de langage d'améliorer leur capacité de raisonnement par auto-apprentissage sans intervention humaine. SPIRAL utilise une méthode d'auto-jeu dans laquelle les modèles de langage apprennent en rivalisant avec des versions d'eux-mêmes en constante amélioration, par le biais de jeux mutuels à somme nulle. Cela élimine le besoin pour les humains de fournir des problèmes et des réponses un par un ou de concevoir des systèmes de récompense. Pour l'auto-jeu à grande échelle, nous proposons un système d'apprentissage par renforcement multi-agents, multi-tours et entièrement en ligne, ainsi qu'une technique d'estimation des avantages conditionnels aux rôles (RAE). Lorsque le modèle Qwen3-4B-Base est entraîné à l'aide de jeux de poker Kuhn, ses capacités de raisonnement mathématique et de raisonnement général sont améliorées respectivement de 8,6 % et 8,4 %, et il surpasse la SFT utilisant 25 000 enregistrements de jeux experts. Les résultats d'analyse montrent que cela est obtenu grâce à des schémas cognitifs tels que la décomposition systématique, le calcul de la valeur attendue et l'analyse au cas par cas. L'entraînement à différents jeux (morpion, poker Kuhn, négociation simple) améliore les capacités de raisonnement spécifiques à chaque jeu. L'application de SPIRAL à un puissant modèle d'inférence (DeepSeek-R1-Distill-Qwen-7B) a également montré une amélioration moyenne des performances de 2,0 %, démontrant que les jeux à somme nulle développent naturellement des capacités d'inférence généralisables.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode pour améliorer la capacité d’inférence des modèles linguistiques sans intervention humaine est présentée.
Nous démontrons que l’apprentissage auto-compétitif utilisant des jeux à somme nulle est efficace pour améliorer la capacité de raisonnement.
Vérifier que les capacités de raisonnement acquises se généralisent à une variété de problèmes.
Proposition d'un système efficace d'apprentissage par renforcement multi-agents et d'une technique RAE.
Limitations:
Actuellement, les résultats sont limités à un type de jeu spécifique. Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité à différents types de jeux et de problèmes.
Une analyse supplémentaire est nécessaire pour résoudre le problème de surapprentissage qui peut survenir lors de l’apprentissage auto-compétitif.
Ces résultats concernent un modèle de langage spécifique et nécessitent une vérification de la généralisabilité à d’autres modèles.
Des recherches supplémentaires sont nécessaires sur l’apprentissage à long terme et l’applicabilité à des jeux plus complexes.
👍