Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Diversificación de comportamientos políticos con curiosidad conductual extrínseca

Created by
  • Haebom

Autor

Zhenglin Wan, Xingrui Yu, David Mark Bossens, Yueming Lyu, Qing Guo, Flint Xiaofeng Fan, Yew Soon Ong, Ivor Tsang

Describir

Este artículo presenta el Aprendizaje por Refuerzo Inverso de Diversidad de Calidad (QD-IRL), un novedoso marco que integra la optimización de Diversidad de Calidad (QD) con el Aprendizaje por Refuerzo Inverso (IRL) para superar las limitaciones del aprendizaje de políticas de un solo experto y aprender comportamientos diversos y robustos. Específicamente, presentamos la Curiosidad Conductual Extrínseca (EBC), que proporciona recompensas adicionales por curiosidad basadas en la novedad de un comportamiento en comparación con el archivo de comportamiento existente. Experimentos en diversas tareas de locomoción robótica demuestran que el EBC mejora el rendimiento de algoritmos QD-IRL como GAIL, VAIL y DiffAIL hasta en un 185%, y supera el rendimiento de expertos hasta en un 20% en un entorno humanoide. Además, demostramos que el EBC es aplicable a algoritmos de aprendizaje por refuerzo QD basados en arborescencia de gradiente y es una técnica general que mejora significativamente el rendimiento. El código fuente está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Presentamos QD-IRL y EBC, nuevos marcos que superan las limitaciones del aprendizaje de políticas por parte de un solo experto y aprenden comportamientos diversos y sólidos.
Verificar experimentalmente la exploración y mejora del rendimiento de varios comportamientos de movimiento de robots a través de EBC.
Presentación de una técnica general aplicable a varios algoritmos IRL y QD-RL.
Logre resultados que superen el desempeño de los expertos.
Garantizar la reproducibilidad y extensibilidad mediante la divulgación del código fuente.
Limitations:
La eficacia del EBC puede depender de entornos y algoritmos específicos.
Se necesita más investigación sobre cómo gestionar archivos de comportamiento a gran escala y cómo hacer comparaciones eficientes.
Se necesitan validaciones adicionales y garantías de seguridad para aplicaciones del mundo real.
Se necesita más investigación sobre la optimización y generalización del diseño de compensación EBC.
👍