Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

BCR-DRL: Recompensa consciente del comportamiento y del contexto para el aprendizaje de refuerzo profundo en la coordinación humano-IA

Created by
  • Haebom

Autor

Xin Hao, Bahareh Nakisa, Mohmmad Naim Rastgoo, Gaoyang Pang

Describir

Este artículo propone la Recompensa Conductual y Contextual (BCR) para abordar dos desafíos clave del Aprendizaje Profundo por Refuerzo (DRL) en la Colaboración Humano-IA (HAIC): las recompensas dispersas y el comportamiento humano impredecible. La BCR consiste en un sistema dual de recompensa intrínseca, compuesto por recompensas intrínsecas de automotivación de IA y recompensas intrínsecas de motivación humana, así como un mecanismo de ponderación contextual que aprovecha la información contextual para mejorar la cooperación con los participantes. Los resultados de la simulación en un entorno sobrecocido muestran que el método propuesto aumenta las recompensas dispersas acumuladas en aproximadamente un 20 % y mejora la eficiencia del muestreo en aproximadamente un 38 % en comparación con las líneas base de última generación.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco BCR para abordar los problemas de las recompensas escasas y el comportamiento humano impredecible.
Exploración mejorada a través de un sistema dual de recompensa intrínseca y utilización mejorada a través de un mecanismo de ponderación consciente del contexto.
Los experimentos en un entorno sobrecocido demuestran empíricamente mejoras acumulativas en la recompensa y en la eficiencia de la muestra.
Limitations:
Estos resultados experimentales se limitan al entorno de sobrecocción. Se requiere más investigación para determinar su generalización a otros entornos HAIC.
Dependencia de la precisión del modelado del comportamiento humano. Podría requerirse un modelado más sofisticado del comportamiento humano.
Se necesita más investigación sobre la selección de información contextual y la optimización de los mecanismos de ponderación.
👍