Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje en juegos de Stackelberg multiobjetivo repetidos con manipulación de resultados

Created by
  • Haebom

Autor

Phurinut Srisawad, Juergen Branke, Long Tran-Thanh

Describir

Estudiamos la manipulación de recompensas del líder en un juego de Stackelberg multiobjetivo repetido. Los líderes pueden influir estratégicamente en las respuestas óptimas deterministas de sus seguidores, por ejemplo, ofreciendo una parte de su propia recompensa. Se asume que las funciones de utilidad de los seguidores (que representan sus preferencias por múltiples objetivos) son lineales, aunque desconocidas, y sus parámetros de ponderación deben inferirse mediante interacciones. Esto plantea al líder una tarea secuencial de toma de decisiones, que requiere un equilibrio entre la inducción de preferencias y la maximización inmediata de la utilidad. Este estudio formaliza este problema y propone una política de manipulación basada en la utilidad esperada (UE) y la utilidad esperada a largo plazo (UE larga). Esta política guía las acciones y la elección de incentivos del líder, permitiéndole equilibrar las ganancias a corto plazo con los impactos a largo plazo. Demostramos que la UE larga converge a una manipulación óptima bajo interacciones infinitamente repetidas. Los resultados experimentales en un entorno de referencia demuestran que el método propuesto mejora la utilidad acumulada del líder y promueve resultados mutuamente beneficiosos, incluso sin negociación explícita ni conocimiento previo de las funciones de utilidad de los seguidores.

Takeaways, Limitations

Takeaways:
Presentamos un método mediante el cual los líderes pueden manipular eficazmente el comportamiento de sus seguidores sin conocimiento previo de sus funciones de utilidad.
Demostramos que las políticas de manipulación basadas en la utilidad esperada y la utilidad esperada a largo plazo pueden lograr una manipulación óptima al tener en cuenta tanto los beneficios a corto plazo como los impactos a largo plazo.
El método propuesto promueve resultados mutuamente beneficiosos sin negociación explícita o conocimiento previo.
Demostramos matemáticamente que, bajo interacciones repetidas infinitamente, la utilidad esperada a largo plazo converge a la operación óptima.
Limitations:
El supuesto de que la función de utilidad del seguidor es lineal no siempre es válido en situaciones del mundo real.
Debido a que supone interacciones de iteración infinitas, el rendimiento puede degradarse en situaciones de iteración finita.
Los resultados experimentales están limitados a un entorno de referencia específico y el rendimiento puede variar en otros entornos.
No se consideró el desempeño de los seguidores a la hora de reconocer y responder a los intentos de manipulación del líder.
👍