Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage dans les jeux de Stackelberg multi-objectifs répétés avec manipulation des gains

Created by
  • Haebom

Auteur

Phurinut Srisawad, Juergen Branke, Long Tran-Thanh

Contour

Nous étudions la manipulation des récompenses des leaders dans un jeu de Stackelberg multi-objectifs répété. Les leaders peuvent influencer stratégiquement les réponses optimales déterministes de leurs suiveurs, par exemple en leur offrant une partie de leur propre récompense. Les fonctions d'utilité des suiveurs (représentant leurs préférences pour plusieurs objectifs) sont inconnues, mais supposées linéaires, et les paramètres de pondération doivent être déduits par les interactions. Le leader est alors confronté à une tâche décisionnelle séquentielle, nécessitant un équilibre entre l'induction des préférences et la maximisation immédiate de l'utilité. Cette étude formalise ce problème et propose une politique de manipulation basée sur l'utilité espérée (UE) et l'utilité espérée à long terme (UE longue). Cette politique guide les actions et les choix d'incitation du leader, lui permettant d'équilibrer gains à court terme et impacts à long terme. Nous démontrons que l'UE longue converge vers une manipulation optimale sous des interactions répétées à l'infini. Les résultats expérimentaux dans un environnement de référence démontrent que la méthode proposée améliore l'utilité cumulative du leader et favorise des résultats mutuellement bénéfiques, même sans négociation explicite ni connaissance préalable des fonctions d'utilité des suiveurs.

Takeaways, Limitations

Takeaways:
Nous présentons une méthode par laquelle les dirigeants peuvent manipuler efficacement le comportement de leurs adeptes sans connaissance préalable des fonctions utilitaires de ces derniers.
Nous montrons que les politiques de manipulation basées sur l’utilité espérée et l’utilité espérée à long terme peuvent permettre une manipulation optimale en prenant en compte à la fois les avantages à court terme et les impacts à long terme.
La méthode proposée favorise des résultats mutuellement bénéfiques sans négociation explicite ni connaissance préalable.
Nous prouvons mathématiquement que sous des interactions répétées à l’infini, l’utilité espérée à long terme converge vers le fonctionnement optimal.
Limitations:
L’hypothèse selon laquelle la fonction d’utilité du suiveur est linéaire n’est pas toujours vraie dans les situations du monde réel.
ÉTant donné qu’il suppose des interactions d’itération infinies, les performances peuvent se dégrader dans des situations d’itération finie.
Les résultats expérimentaux sont limités à un environnement de référence spécifique et les performances peuvent varier dans d’autres environnements.
La capacité des suiveurs à reconnaître et à répondre aux tentatives de manipulation du leader n’a pas été prise en compte.
👍