Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje en juegos de Stackelberg multiobjetivo repetidos con manipulación de resultados

Created by
  • Haebom

Autor

Phurinut Srisawad, Juergen Branke, Long Tran-Thanh

Describir

Este artículo estudia la manipulación de recompensas, una estrategia mediante la cual un líder puede influir estratégicamente en la respuesta determinista óptima de un seguidor, por ejemplo, compartiendo sus propias recompensas, en un juego iterado de Stackelberg multiobjetivo. Se asume que la función de utilidad del seguidor (que representa sus preferencias por múltiples objetivos) es lineal, aunque desconocida, y sus parámetros de ponderación deben inferirse mediante interacciones. Esto plantea al líder una tarea secuencial de toma de decisiones: equilibrar la maximización de la utilidad inmediata con la inducción de preferencias. Este artículo formaliza este problema y propone una política de manipulación basada en la utilidad esperada (UE) y la utilidad esperada a largo plazo (UE larga). Esta estrategia guía al líder en la selección de acciones y la provisión de incentivos, equilibrando las ganancias a corto plazo con el impacto a largo plazo. Demostramos que la UE larga converge a una manipulación óptima bajo interacciones repetidas infinitamente. Los resultados empíricos en un entorno de referencia demuestran que nuestro enfoque mejora la utilidad acumulada del líder, a la vez que promueve resultados mutuamente beneficiosos, incluso sin negociación explícita ni conocimiento previo de la función de utilidad del seguidor.

Takeaways, Limitations

Takeaways:
Un nuevo enfoque para el problema de manipulación de recompensas en juegos multiobjetivo de Stackelberg.
Prueba de la posibilidad de manipulación efectiva de recompensas sin conocimiento previo de las funciones de utilidad de los seguidores.
Propuestas de políticas de manipulación basadas en la utilidad esperada (UE) y la utilidad esperada de largo plazo (longEU) y verificación de su efectividad.
Demostrar que las interacciones a largo plazo convergen hacia un funcionamiento óptimo
Presentando una estrategia de manipulación de compensación que promueve resultados mutuamente beneficiosos.
Limitations:
Suponiendo que la función de utilidad del seguidor es lineal
Suponiendo infinitas interacciones repetitivas (en realidad, interacciones finitas)
Falta de consideración hacia los diferentes tipos de comportamiento de los seguidores (por ejemplo, comportamiento irracional)
Se necesita más investigación para aplicaciones en el mundo real.
👍