[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje de refuerzo con fragmentación de acciones

Created by
  • Haebom

Autor

Qiyang Li, Zhiyuan Zhou, Sergey Levine

Describir

En este artículo, presentamos Q-chunking, un método simple pero efectivo para mejorar los algoritmos de aprendizaje por refuerzo (AR) en tareas a largo plazo con recompensa dispersa. Está diseñado para entornos de AR offline-online que maximizan la eficiencia de muestreo del aprendizaje online aprovechando datos offline. La idea central es aplicar la fragmentación de acciones, una técnica que predice la secuencia de acciones futuras, a métodos de AR basados en TD para mitigar el problema de exploración. Q-chunking ejecuta directamente el AR en el espacio de acción fragmentado, realizando eficazmente la exploración online aprovechando las acciones temporalmente consistentes de los datos offline, y permite un aprendizaje de TD más estable y eficiente mediante el uso de copias de seguridad imparciales de n pasos. Los resultados experimentales muestran que Q-chunking demuestra un sólido rendimiento offline y una eficiencia de muestreo online, superando a los mejores métodos offline-online existentes en diversas tareas de manipulación de recompensa dispersa a largo plazo.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso que puede mejorar significativamente la eficiencia de muestreo del aprendizaje directo en línea y fuera de línea en tareas de recompensa dispersa a largo plazo.
Aplicación de la fragmentación de acciones al RL basado en TD para lograr una exploración efectiva y un aprendizaje estable.
Se demostró un rendimiento superior al de los métodos existentes en una variedad de tareas.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Es necesario explorar formas de optimizar el rendimiento para tipos específicos de tareas.
Falta de pautas claras para determinar el tamaño de los fragmentos para la fragmentación de acciones.
👍