Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelado de recompensas dispersas en el aprendizaje por refuerzo: un enfoque semisupervisado

Created by
  • Haebom

Autor

Wenyun Li, Wenjie Huang, Chen Sun

Describir

Este artículo presenta un método propuesto para abordar el reto de aprender una función de recompensa efectiva en escenarios reales donde las señales de recompensa son extremadamente escasas. El método propuesto lleva a cabo la formación de recompensas utilizando todas las transiciones, incluida la transición de recompensa cero. Específicamente, combina el aprendizaje semisupervisado (SSL) y una novedosa técnica de aumento de datos para aprender representaciones del espacio de trayectorias a partir de la transición de recompensa cero, mejorando así la eficiencia de la formación de recompensas. Los resultados experimentales en juegos de Atari y manipulación de robots demuestran que el método propuesto supera a los métodos basados en aprendizaje supervisado en la inferencia de recompensas y mejora las puntuaciones de los agentes. En particular, en entornos donde las recompensas son aún más escasas, el método propuesto alcanza una puntuación líder en su clase, hasta el doble de la de los métodos existentes. La técnica de aumento de datos de doble entropía propuesta mejora significativamente el rendimiento, alcanzando una puntuación líder en su clase, un 15,8 % superior a la de otros métodos de aumento.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo método para la formación efectiva de recompensas en un entorno de recompensa escasa.
Explotación de información de transferencia de recompensa cero mediante aprendizaje semisupervisado y aumento de datos.
Se demostró un rendimiento superior en comparación con los métodos existentes en los experimentos de manipulación de robots y juegos de Atari.
Validación de la efectividad de las técnicas de aumento de datos de doble entropía.
Limitations:
Se necesitan más experimentos para evaluar el rendimiento de generalización del método propuesto.
Es necesaria la verificación de aplicabilidad para varios tipos de entornos de recompensa escasa.
Se necesita investigación para establecer parámetros óptimos para las técnicas de aumento de datos.
👍