Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ampliación de políticas para conectar el aprendizaje de refuerzo presencial con el aprendizaje en línea

Created by
  • Haebom

Autor

Haichao Zhang, Nosotros Xu, Haonan Yu

Describir

Este artículo presenta un método novedoso para el aprendizaje de políticas de control mediante la combinación del preentrenamiento con datos fuera de línea y el ajuste fino en línea mediante aprendizaje por refuerzo. Para abordar el problema de la pérdida de comportamientos útiles de las políticas fuera de línea en las primeras etapas del aprendizaje en línea tradicional, proponemos una técnica que utiliza una política entrenada fuera de línea como política candidata en un conjunto de políticas y amplía este conjunto añadiendo otra política para su posterior aprendizaje. Ambas políticas se configuran adaptativamente para interactuar con el entorno, y la política fuera de línea se mantiene completamente durante el aprendizaje en línea. Esto permite que la política fuera de línea explore de forma natural, conservando sus comportamientos útiles, y que la política recién añadida aprenda nuevos comportamientos útiles. Los resultados experimentales en diversas tareas demuestran la eficacia del método propuesto.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso que combina las ventajas del preentrenamiento fuera de línea y el ajuste fino en línea para mejorar la eficiencia y el rendimiento de la muestra.
Proporciona estrategias efectivas para preservar comportamientos políticos útiles fuera de línea en los procesos de aprendizaje en línea.
La configuración de políticas adaptativas permite la exploración natural de políticas fuera de línea y el aprendizaje de nuevos comportamientos.
Demostrando su practicidad verificando su eficacia en diversas tareas.
Limitations:
Las mejoras de rendimiento del método propuesto pueden limitarse a tareas o entornos específicos.
El rendimiento puede variar según el tamaño y la configuración de su conjunto de políticas, y encontrar la configuración óptima puede resultar difícil.
Dado que los resultados experimentales se presentaron solo en un entorno específico, es necesario evaluar el desempeño de la generalización en una gama más amplia de entornos.
👍