[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Transferencia causal de conocimiento para el aprendizaje por refuerzo multiagente en entornos dinámicos

Created by
  • Haebom

Autor

Kathrin Korte, Christian Medeiros Adriano, Sona Ghahremani, Holger Giese

Describir

En este artículo, presentamos un marco de transferencia de conocimiento causal para abordar el problema de transferencia de conocimiento del aprendizaje por refuerzo multiagente (MARL) en entornos impredecibles. La transferencia efectiva de conocimiento entre agentes en entornos impredecibles con objetivos cambiantes es una tarea compleja. Este estudio permite a los agentes aprender y compartir representaciones causales concisas de las trayectorias en el entorno. Cuando se producen cambios en el entorno, como nuevos obstáculos, los conflictos entre agentes se modelan como intervenciones causales, que se implementan como secuencias de acción de recuperación (macros) para sortear obstáculos y aumentar la probabilidad de alcanzar el objetivo. Estas macros de acción de recuperación se transfieren en línea desde otros agentes sin necesidad de reentrenamiento y se aplican como consultas del modelo de búsqueda utilizando información del contexto local (conflictos).

Takeaways, Limitations

Takeaways:
Al adaptarse a un entorno desconocido, demostramos que los agentes con objetivos heterogéneos pueden reducir la brecha de rendimiento entre la exploración aleatoria y las políticas completamente reentrenadas a aproximadamente la mitad.
Revelamos que la efectividad de la transferencia de conocimiento causal depende de la complejidad del entorno y de las interacciones entre los objetivos heterogéneos del agente.
Presentamos una nueva forma de transferir conocimiento en línea sin necesidad de volver a capacitarse, aumentando la eficiencia.
Limitations:
El rendimiento del método propuesto depende de la complejidad del entorno y de la heterogeneidad de los objetivos del agente, y puede no garantizar un rendimiento consistente en todas las situaciones.
El rendimiento del modelo de búsqueda puede tener un impacto significativo en el rendimiento de todo el sistema, y se necesita más investigación sobre el diseño y el entrenamiento del modelo de búsqueda.
Se necesitan experimentos y análisis adicionales para determinar el rendimiento de la generalización en diferentes tipos de entornos y agentes.
👍