[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Qué experiencias influyen en los agentes de aprendizaje a distancia? Estimación eficiente de la influencia de las experiencias

Created by
  • Haebom

Autor

Takuya Hiraoka, Guanquan Wang, Takashi Onishi, Yoshimasa Tsuruoka

Describir

En este artículo, presentamos la Iteración de Políticas con Rotación y Descarte (PIToD), un método novedoso para estimar eficientemente la influencia de las experiencias en el rendimiento de agentes de aprendizaje por refuerzo (RL) mediante la repetición de experiencias. PIToD aborda eficazmente el coste computacional del método tradicional de dejar uno fuera (LOO). Evaluamos la precisión con la que PIToD estima la influencia de las experiencias y su eficiencia en comparación con LOO. También demostramos que PIToD puede mejorar el rendimiento de agentes de RL de bajo rendimiento al identificar experiencias con influencia negativa y eliminar su influencia.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para estimar eficientemente la influencia de la experiencia en el aprendizaje de refuerzo basado en la experiencia (PIToD).
Demostramos experimentalmente que es posible mejorar el rendimiento de los agentes RL de bajo rendimiento aprovechando PIToD.
Resuelva eficazmente el problema de costo computacional del método LOO.
Limitations:
Se han evaluado el rendimiento y la eficiencia de PIToD para entornos y agentes de RL específicos, y su generalización a otros entornos o agentes requiere más estudios.
Falta de análisis comparativo con otras estrategias de mejora distintas a las que eliminan experiencias que tienen impactos negativos.
Es posible que se necesiten más investigaciones sobre la escalabilidad de PIToD a grandes conjuntos de datos.
👍