Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

P2DT: Mitigación del olvido en el aprendizaje incremental de tareas con un transformador de decisión progresivo y rápido

Created by
  • Haebom

Autor

Zhiyuan Wang, Xiaoyang Qu, Jing Xiao, Bokui Chen, Jianzong Wang

Describir

Este artículo propone el Transformador de Decisión Progresiva Rápida (P2DT) como solución al problema del olvido crítico, que causa una degradación del rendimiento al encontrar nuevas tareas en agentes inteligentes controlados por modelos a gran escala. P2DT promueve políticas específicas para cada tarea mediante la adición dinámica de tokens de decisión durante el aprendizaje de nuevas tareas, lo que mejora el modelo basado en el Transformador. Esto mitiga el olvido tanto en escenarios de aprendizaje de refuerzo continuo como fuera de línea. Además, P2DT utiliza trayectorias recopiladas mediante el aprendizaje de refuerzo existente en todas las tareas y genera nuevos tokens específicos para cada tarea durante el aprendizaje, preservando el conocimiento del aprendizaje previo. Los resultados iniciales demuestran que este modelo mitiga eficazmente el olvido crítico y escala adecuadamente en un entorno de tareas en crecimiento.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo método para aliviar eficazmente el problema del olvido fatal en modelos basados ​​en transformadores.
Aplicable tanto al aprendizaje de refuerzo continuo como fuera de línea.
Utilice eficazmente los datos de aprendizaje existentes para aprender nuevas tareas.
Demuestra una excelente escalabilidad incluso en un entorno de tareas en aumento
Limitations:
Sólo se presentan resultados iniciales, requiriendo mayor experimentación y verificación.
Se necesita más investigación sobre el rendimiento de la generalización en diversos entornos y tareas.
Se necesita un análisis detallado del coste computacional y la eficiencia de P2DT.
👍