Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RL alineado con la gramática y la jugabilidad para la generación de descripciones de juegos con LLM

Created by
  • Haebom

Autor

Tsunehiko Tanaka, Edgar Simo-Serra

Describir

Este artículo aborda la tarea de Generación de Descripción de Juegos (GDG), que genera descripciones de juegos escritas en Lenguaje de Descripción de Juegos (GDL) a partir de texto en lenguaje natural. Estudios previos han explorado métodos generativos que aprovechan la capacidad de los modelos de lenguaje a gran escala (LLM) para reconocer el contexto, pero reproducir con precisión las características del juego en las descripciones sigue siendo un desafío. En este artículo, proponemos un ajuste fino de LLM basado en aprendizaje de refuerzo (RLGDG) para GDG. El método propuesto mejora simultáneamente la precisión gramatical y la fidelidad a los conceptos del juego al introducir recompensas gramaticales y recompensas conceptuales. Además, adoptamos una estrategia de entrenamiento de dos etapas en la que se aplica el aprendizaje de refuerzo (RL) después del ajuste fino supervisado (SFT). Los resultados experimentales muestran que el método propuesto supera significativamente a los métodos de referencia que solo utilizan SFT. El código está disponible en https://github.com/tsunehiko/rlgdg .

Takeaways, Limitations

Takeaways:
Demostramos que el ajuste fino basado en el aprendizaje de refuerzo puede mejorar simultáneamente tanto la corrección gramatical como la fidelidad del concepto de juego de los GDG.
Verificar experimentalmente la efectividad de la estrategia de entrenamiento en dos pasos (SFT seguido de aplicación de RL).
Presentamos un método RLGDG que supera a los métodos existentes basados ​​en SFT.
La reproducibilidad es posible mediante código abierto.
Limitations:
Existe la posibilidad de que la mejora del rendimiento del método propuesto esté limitada a ciertos conjuntos de datos o tipos de juegos.
Se necesita una evaluación del rendimiento de generalización para descripciones de juegos más diversas y complejas.
Es necesario mejorar el coste computacional y la eficiencia de los procesos de aprendizaje de refuerzo.
👍