本論文は,固定補償構造の硬直性と暗黙の補償規制の柔軟性不足問題を解決する新しい逆強化学習(IRL)法を提案する。最大エントロピーIRLフレームワークに基づいて、学習中に動的に進化する適応ターゲットを持つ2乗時間差(TD)調整器を統合し、復元された補償に適応的な境界を課し、強力な意思決定を促進します。より豊富な収益情報を取得するために、分布強化学習を学習プロセスに統合します。実験的に、提案された方法は複雑なMuJoCoタスクでエキスパートレベルのパフォーマンスを達成し、3つのデモンストレーションを通じてヒューマノイドタスクの基準方法を上回ります。広範な実験とablation studyはこの方法の効果をさらに検証し、模倣学習における補償力学への洞察を提供します。