Cet article étudie la manipulation des récompenses, une stratégie par laquelle un leader peut influencer stratégiquement la réponse déterministe optimale d'un suiveur, par exemple en partageant ses propres récompenses, dans un jeu de Stackelberg multi-objectifs itéré. La fonction d'utilité du suiveur (représentant ses préférences pour plusieurs objectifs) est supposée linéaire, bien qu'inconnue, et ses paramètres de pondération doivent être déduits par des interactions. Le leader est alors confronté à une tâche décisionnelle séquentielle : trouver un équilibre entre la maximisation de l'utilité immédiate et l'induction des préférences. Cet article formalise ce problème et propose une politique de manipulation basée sur l'utilité espérée (UE) et l'utilité espérée à long terme (UE longue). Cette stratégie guide le leader dans le choix des actions et la fourniture d'incitations en équilibrant les gains à court terme et l'impact à long terme. Nous démontrons que l'UE longue converge vers une manipulation optimale sous des interactions répétées à l'infini. Les résultats empiriques dans un environnement de référence démontrent que notre approche améliore l'utilité cumulative du leader tout en favorisant des résultats mutuellement bénéfiques, même sans négociation explicite ni connaissance préalable de la fonction d'utilité du suiveur.