Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Les grands modèles linguistiques peuvent-ils développer un raisonnement stratégique ? Apprentissage des échecs : perspectives post-formation

Created by
  • Haebom

Auteur

Dongyoon Hwang, Hojoon Lee, Jaegul Choo, parc Dongmin, parc Jongho

Contour

Cet article applique l'apprentissage par renforcement (RL) au jeu d'échecs afin d'améliorer la capacité de raisonnement stratégique des modèles de langage à grande échelle (MLL). Nous utilisons une méthode de distillation des connaissances qui offre des récompenses denses pour la qualité des résultats du LLM, en exploitant un réseau action-valeur pré-entraîné sur les échecs. Les résultats expérimentaux montrent que les récompenses denses surpassent les récompenses binaires clairsemées, mais tous les modèles sont loin d'atteindre des performances de niveau expert. Les résultats suggèrent que le manque de compréhension des échecs par les modèles pré-entraînés en est la cause principale, et que l'apprentissage par renforcement seul ne peut pas totalement surmonter cette limitation. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways: Nous avons validé l'applicabilité de l'apprentissage par renforcement pour améliorer la capacité de raisonnement stratégique des étudiants en master de droit grâce à une partie d'échecs. Nous avons confirmé l'efficacité des récompenses denses basées sur la distillation des connaissances.
Limitations: Aucun des modèles n'a atteint un niveau expert. Le manque de compréhension interne des échecs dans les modèles pré-entraînés a mis en évidence les limites de l'apprentissage par renforcement des capacités. Cela suggère que l'apprentissage par renforcement à lui seul est peu susceptible d'améliorer pleinement les capacités de raisonnement stratégique des LLM.
👍