Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¡Piensa con inteligencia, actúa con inteligencia! Análisis de escudos lógicos probabilísticos para el aprendizaje por refuerzo multiagente

Created by
  • Haebom

Autor

Satchit Chatterji, Erman Acar

Describir

Este artículo propone el marco de aprendizaje por refuerzo multiagente blindado (SMARL), que extiende los escudos lógicos probabilísticos (PLS), que garantizan la seguridad en el aprendizaje por refuerzo de un solo agente, a entornos multiagente. SMARL introduce un novedoso método de actualización de diferencia temporal lógica probabilística (PLTD) que integra directamente las restricciones probabilísticas en el proceso de actualización de valores, y un método de gradiente de política lógica probabilística que proporciona garantías formales de seguridad para MARL. Evaluamos SMARL en varios puntos de referencia de la teoría de juegos de n jugadores con restricciones simétricas y asimétricas, demostrando que reduce las violaciones de restricciones y mejora significativamente la cooperación en comparación con los métodos existentes. Esto sugiere que SMARL puede establecerse como un mecanismo eficaz para sistemas multiagente seguros y socialmente armoniosos.

Takeaways, Limitations

Takeaways:
Presentamos el marco SMARL, que extiende PLS a entornos de aprendizaje de refuerzo de múltiples agentes (MARL) para garantizar la seguridad.
Integración efectiva de restricciones a través de actualizaciones de PLTD y métodos de gradiente de política lógica probabilística.
Se demostró eficacia en la reducción de violaciones de restricciones y la promoción de la cooperación en comparación con los métodos existentes en varios puntos de referencia.
Presentando la posibilidad de desarrollar un sistema multiagente seguro y socialmente armonioso.
Proporcionar un mecanismo eficaz para orientar a MARL hacia resultados de cumplimiento.
Limitations:
Se necesita un análisis más profundo de la complejidad computacional y la escalabilidad del método propuesto.
Es necesaria la verificación del rendimiento de generalización para varios entornos multiagente y tipos de problemas.
Se necesitan más investigaciones y experimentos para aplicaciones en el mundo real.
Es necesario comprobar si existen sesgos en determinados tipos de restricciones.
👍