Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Sobre la eficiencia muestral de las abstracciones y la conformación de recompensas basada en el potencial en el aprendizaje por refuerzo

Created by
  • Haebom

Autor

Giuseppe Canonaco, Leo Ardón, Alberto Pozanco, Daniel Borrajo

Describir

Este artículo explora el uso del Modelado de Recompensa Basado en el Potencial (PBRS) para abordar el problema de la ineficiencia muestral en el Aprendizaje por Refuerzo (AR). Destacamos la dificultad de seleccionar una función latente adecuada y el sesgo inherente al uso de un horizonte finito debido a limitaciones computacionales. A continuación, presentamos una justificación teórica de por qué la selección de una función de valor óptimo como función latente mejora el rendimiento. Analizamos el sesgo inducido por un horizonte finito en PBRS y, mediante la abstracción para aproximar la función de valor óptimo, evaluamos la eficiencia muestral y el impacto en el rendimiento de PBRS en cuatro entornos, incluyendo una tarea de navegación dirigida por objetivos y tres juegos de Entorno de Aprendizaje Arcade (ALE). Los resultados experimentales demuestran que una red simple completamente conectada puede alcanzar un rendimiento comparable al de una solución basada en CNN.

Takeaways, Limitations

Takeaways: Presentamos la base teórica de PBRS, que utiliza la función de valor óptimo como función latente, y validamos experimentalmente su potencial para mejorar la eficiencia y el rendimiento de las muestras. Demostramos el potencial para lograr un rendimiento comparable al de las soluciones basadas en CNN con una red simple.
Limitations: Se requiere mayor investigación para determinar el rendimiento de generalización del método propuesto. Se requiere mayor validación experimental para diversos entornos y tareas complejas. No se presenta una solución completa al problema del sesgo debido a horizontes finitos.
👍