Nous étudions la manipulation des récompenses des leaders dans un jeu de Stackelberg multi-objectifs répété. Les leaders peuvent influencer stratégiquement les réponses optimales déterministes de leurs suiveurs, par exemple en leur offrant une partie de leur propre récompense. Les fonctions d'utilité des suiveurs (représentant leurs préférences pour plusieurs objectifs) sont inconnues, mais supposées linéaires, et les paramètres de pondération doivent être déduits par les interactions. Le leader est alors confronté à une tâche décisionnelle séquentielle, nécessitant un équilibre entre l'induction des préférences et la maximisation immédiate de l'utilité. Cette étude formalise ce problème et propose une politique de manipulation basée sur l'utilité espérée (UE) et l'utilité espérée à long terme (UE longue). Cette politique guide les actions et les choix d'incitation du leader, lui permettant d'équilibrer gains à court terme et impacts à long terme. Nous démontrons que l'UE longue converge vers une manipulation optimale sous des interactions répétées à l'infini. Les résultats expérimentaux dans un environnement de référence démontrent que la méthode proposée améliore l'utilité cumulative du leader et favorise des résultats mutuellement bénéfiques, même sans négociation explicite ni connaissance préalable des fonctions d'utilité des suiveurs.