繰り返し多目的Stackelbergゲームでリーダーの報酬操作を研究します。リーダーは、例えば、彼の報酬の一部を提供することによって、フォロワーの決定論的最適応答に戦略的に影響を与えることができる。フォロワーのユーティリティ関数(複数の目標に対する好みを表す)は不明ですが、線形であると仮定し、重みパラメータは相互作用を通じて推定する必要があります。これはリーダーに順次意思決定の課題を提示します。この研究は、この問題を定式化し、期待ユーティリティ(EU)と長期期待ユーティリティ(longEU)に基づく操作ポリシーを提案します。この方針は、リーダーが短期的な利益と長期的な影響の間で妥協する行動とインセンティブの選択をガイドします。無限反復相互作用の下で、longEUが最適な操作で収束することを証明する。ベンチマーク環境の実験結果は、明示的な交渉やフォロワーユーティリティ関数の事前知識なしで提案された方法が累積リーダーユーティリティを向上させ、相互利益の結果を促進することを示しています。