[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Mejora de los modelos de Transformer World para un aprendizaje automático eficiente en el uso de datos

Created by
  • Haebom

Autor

Antoine Dedieu, Joseph Ortiz, Xinghua Lou, Carter Wendelken, Wolfgang Lehrach, J Swaroop Guntupalli, Miguel Lazaro-Gredilla, Kevin Patrick Murphy

Describir

Este artículo presenta tres mejoras al paradigma estándar de aprendizaje por refuerzo basado en modelos, basado en Transformer. En primer lugar, "Dyna con calentamiento" entrena la política utilizando datos reales e imaginarios, pero comienza a utilizar estos últimos solo después de que el modelo del mundo se haya entrenado lo suficiente. En segundo lugar, el "tokenizador de vecino más cercano" para parches de imagen mejora el enfoque previo de tokenizador requerido al utilizar el modelo del mundo Transformer (TWM), al garantizar que las palabras clave se fijen tras su generación, proporcionando así un objetivo consistente para el aprendizaje de TWM. En tercer lugar, la "aplicación del profesor de bloques" permite a TWM inferir conjuntamente tokens futuros para el siguiente paso de tiempo en lugar de generarlos secuencialmente. El método propuesto demuestra mejoras significativas en el rendimiento con respecto a los métodos anteriores en diversos entornos. En particular, alcanza una recompensa del 69,66 % tras 1 millón de pasos en el entorno en el benchmark Craftax-classic, superando significativamente a DreamerV3 (53,2 %) y superando el nivel humano (65,0 %) por primera vez. También demostramos la generalidad del enfoque a través de resultados preliminares en Craftax-full, MinAtar y otros tres juegos para dos jugadores.

Takeaways, Limitations

Takeaways: Presentamos tres nuevas técnicas (Dyna con calentamiento, tokenizador del vecino más cercano y forzado del profesor de bloques) que mejoran significativamente el rendimiento del aprendizaje por refuerzo basado en Transformers y logran resultados que superan el rendimiento humano en Craftax-classic. Los resultados experimentales en diversos entornos demuestran la generalidad del método propuesto.
Limitations: Los resultados para Craftax-full, MinAtar y juegos para 2 jugadores son preliminares y requieren un análisis más profundo y experimentos adicionales. Se requiere investigación adicional para determinar si el método propuesto es igualmente efectivo en todos los entornos.
👍