この論文では、動的離散選択(DDC)モデル、つまり機械学習におけるオフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL)の問題について研究します。目標は、オフライン行動データからエージェント行動を支配する報酬またはQ *関数を回復することです。線形パラメータ化された補償の制限的な仮定なしに、これらの問題を解決するためのグローバル収束ベースの傾斜降下法を提案します。この研究のノベルティは、ベルマン方程式で明示的な状態遷移確率推定を必要としない経験的リスク最小化(ERM)ベースのIRL / DDCフレームワークを導入することです。さらに、ニューラルネットワークなどの非パラメトリック推定手法と互換性があります。したがって、提案された方法は高次元、無限状態空間に拡張される可能性があります。この研究の重要な理論的洞察は、ベルマン残差がPolyak-Lojasiewicz(PL)条件(強い凸性よりも弱いが速いグローバル収束を保証するのに十分な特性)を満たすということです。一連の合成実験は、提案された方法がベンチマーク法と最先端の代替法よりも一貫して優れた性能を示したことを示しています。