Este artículo estudia la manipulación de recompensas, una estrategia mediante la cual un líder puede influir estratégicamente en la respuesta determinista óptima de un seguidor, por ejemplo, compartiendo sus propias recompensas, en un juego iterado de Stackelberg multiobjetivo. Se asume que la función de utilidad del seguidor (que representa sus preferencias por múltiples objetivos) es lineal, aunque desconocida, y sus parámetros de ponderación deben inferirse mediante interacciones. Esto plantea al líder una tarea secuencial de toma de decisiones: equilibrar la maximización de la utilidad inmediata con la inducción de preferencias. Este artículo formaliza este problema y propone una política de manipulación basada en la utilidad esperada (UE) y la utilidad esperada a largo plazo (UE larga). Esta estrategia guía al líder en la selección de acciones y la provisión de incentivos, equilibrando las ganancias a corto plazo con el impacto a largo plazo. Demostramos que la UE larga converge a una manipulación óptima bajo interacciones repetidas infinitamente. Los resultados empíricos en un entorno de referencia demuestran que nuestro enfoque mejora la utilidad acumulada del líder, a la vez que promueve resultados mutuamente beneficiosos, incluso sin negociación explícita ni conocimiento previo de la función de utilidad del seguidor.