強化学習(RL)を経済モデリングに適用すると、平衡理論の仮定と学習エージェントの出現行動との間に根本的な衝突が発生することがわかりました。標準のRLエージェントは環境を操作する傾向があります。本論文は,凹型生産性を持つナビゲーションマッチングモデルにおいて,標準RLエージェントが非平衡,単一バイヤー方針を学習することを示した。また、経済的割引とRLの時間的費用処理方式の不一致によるパラメータ偏りを確認しました。 2つの問題を解決するために、代表的なエージェントを固定マクロ経済環境に含め、コストの機会コストを反映するようにコスト関数を調整する補正された平均フィールド強化学習フレームワークを提案します。この反復アルゴリズムは、エージェントの方針が競合的平衡に一致する自己一貫した固定点に収束する。