Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Pueden los modelos lingüísticos extensos desarrollar razonamiento estratégico? Perspectivas post-entrenamiento derivadas del aprendizaje del ajedrez.

Created by
  • Haebom

Autor

Dongyoon Hwang, Hojoon Lee, Jaegul Choo, Parque Dongmin, Parque Jongho

Describir

Este artículo aplica el aprendizaje por refuerzo (AR) al ajedrez para mejorar la capacidad de razonamiento estratégico de los modelos de lenguaje a gran escala (MLG). Utilizamos un método de destilación de conocimiento que proporciona recompensas densas según la calidad de los resultados del MGL, aprovechando una red de acción-valor preentrenada en ajedrez. Los resultados experimentales muestran que las recompensas densas superan a las recompensas binarias dispersas, pero todos los modelos se quedan muy por debajo del rendimiento de un experto. Los resultados sugieren que la falta de comprensión del ajedrez por parte de los modelos preentrenados es la causa principal, y que el AR por sí solo no puede superar esta limitación. El código está disponible en GitHub.

Takeaways, Limitations

Takeaways: Validamos la aplicabilidad del aprendizaje por refuerzo (RL) para mejorar la capacidad de razonamiento estratégico de los estudiantes de maestría en derecho mediante una partida de ajedrez. Confirmamos la eficacia de las recompensas densas basadas en la destilación de conocimiento.
Limitations: Ninguno de los modelos alcanzó un rendimiento experto. La falta de comprensión interna del ajedrez en los modelos preentrenados expuso las limitaciones del aprendizaje de aprendizaje por refuerzo (RL). Esto sugiere que es improbable que el RL por sí solo mejore plenamente las habilidades de razonamiento estratégico del LLM.
👍