この論文では、動的離散選択(DDC)モデル、つまり機械学習におけるオフライン最大エントロピー正規化逆強化学習(offline MaxEnt-IRL)の問題を研究します。目標は、オフライン行動データからエージェント行動を支配する報酬またはQ関数を復元することです。本論文では、線形パラメータ化された補償の限定的な仮定なしに、これらの問題を解決するためにグローバルに収束する勾配ベースの方法を提案します。この研究のノベルティは、ベルマン方程式における明示的な状態遷移確率推定の必要性を回避する経験的リスク最小化(ERM)ベースのIRL / DDCフレームワークを導入することです。さらに、本方法はニューラルネットワークのような非パラメトリック推定技術と互換性がある。したがって、提案された方法は高次元、無限状態空間に拡張される可能性があります。この研究の重要な理論的洞察は、ベルマン残差がPolyak-Lojasiewicz(PL)条件(強い凸性よりも弱いが速いグローバル収束を保証するのに十分な特性)を満たすということです。一連の合成実験は、提案された方法がベンチマーク法と最先端の代替法よりも一貫して優れた性能を示したことを示しています。