Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage dans les jeux de Stackelberg multi-objectifs répétés avec manipulation des gains

Created by
  • Haebom

Auteur

Phurinut Srisawad, Juergen Branke, Long Tran-Thanh

Contour

Cet article étudie la manipulation des récompenses, une stratégie par laquelle un leader peut influencer stratégiquement la réponse déterministe optimale d'un suiveur, par exemple en partageant ses propres récompenses, dans un jeu de Stackelberg multi-objectifs itéré. La fonction d'utilité du suiveur (représentant ses préférences pour plusieurs objectifs) est supposée linéaire, bien qu'inconnue, et ses paramètres de pondération doivent être déduits par des interactions. Le leader est alors confronté à une tâche décisionnelle séquentielle : trouver un équilibre entre la maximisation de l'utilité immédiate et l'induction des préférences. Cet article formalise ce problème et propose une politique de manipulation basée sur l'utilité espérée (UE) et l'utilité espérée à long terme (UE longue). Cette stratégie guide le leader dans le choix des actions et la fourniture d'incitations en équilibrant les gains à court terme et l'impact à long terme. Nous démontrons que l'UE longue converge vers une manipulation optimale sous des interactions répétées à l'infini. Les résultats empiriques dans un environnement de référence démontrent que notre approche améliore l'utilité cumulative du leader tout en favorisant des résultats mutuellement bénéfiques, même sans négociation explicite ni connaissance préalable de la fonction d'utilité du suiveur.

Takeaways, Limitations

Takeaways:
Une nouvelle approche du problème de manipulation des récompenses dans les jeux Stackelberg multi-objectifs.
Preuve de la possibilité d'une manipulation efficace des récompenses sans connaissance préalable des fonctions d'utilité des suiveurs.
Propositions de politiques de manipulation basées sur l'utilité espérée (UE) et l'utilité espérée à long terme (longEU) et leur vérification d'efficacité.
Prouver que les interactions à long terme convergent vers un fonctionnement optimal
Présentation d’une stratégie de manipulation de la rémunération qui favorise des résultats mutuellement bénéfiques.
Limitations:
En supposant que la fonction d'utilité du suiveur est linéaire
En supposant des interactions répétitives infinies (en réalité, des interactions finies)
Manque de considération pour les différents types de comportement des suiveurs (par exemple, comportement irrationnel)
Des recherches supplémentaires sont nécessaires pour des applications concrètes.
👍