Bài báo này nghiên cứu về thao túng phần thưởng, một chiến lược mà người lãnh đạo có thể tác động một cách chiến lược đến phản ứng xác định tối ưu của người theo sau, ví dụ, bằng cách chia sẻ phần thưởng của chính họ, trong một trò chơi Stackelberg đa mục tiêu lặp lại. Hàm tiện ích của người theo sau (biểu thị sở thích của họ đối với nhiều mục tiêu) được giả định là tuyến tính, mặc dù chưa biết, và các tham số trọng số của nó phải được suy ra thông qua các tương tác. Điều này đặt ra cho người lãnh đạo một nhiệm vụ ra quyết định tuần tự: cân bằng giữa việc tối đa hóa tiện ích tức thời với việc tạo ra sở thích. Bài báo này chính thức hóa vấn đề này và đề xuất một chính sách thao túng dựa trên tiện ích kỳ vọng (EU) và tiện ích kỳ vọng dài hạn (longEU). Chiến lược này hướng dẫn người lãnh đạo lựa chọn hành động và cung cấp các động lực bằng cách cân bằng lợi ích ngắn hạn với tác động dài hạn. Chúng tôi chứng minh rằng longEU hội tụ về thao túng tối ưu trong các tương tác lặp lại vô hạn. Kết quả thực nghiệm trong môi trường cơ sở cho thấy phương pháp của chúng tôi nâng cao tiện ích tích lũy của người lãnh đạo đồng thời thúc đẩy các kết quả cùng có lợi, ngay cả khi không có sự đàm phán rõ ràng hoặc kiến thức trước về hàm tiện ích của người theo sau.