Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MF-OML: Online Mean-Field Reinforcement Learning with Occupation Measures for Large Population Games

Created by
  • Haebom

作者

Anran Hu, Junzi Zhang

概要

本稿では、大規模集団順次対称ゲームの近似ナッシュバランスを計算するためのオンライン平均フィールド強化学習アルゴリズムであるMF-OML(Mean-Field Occupation-Measure Learning)を提案します。 MF-OMLは、英合併ゲームと潜在的なゲームのバリエーションを超えてナッシュバランスを証明可能に解決する(最初の完全多項時間複雑さを持つマルチエージェント強化学習アルゴリズムです。強いLasry-Lions鍛造性条件を有するゲームの場合、ナッシュバランスからの累積偏差で評価したとき、$\tilde{O}(M^{3/4}+N^{-1/2}M)$の高確率後悔上限を達成し、Lasry-Lions鍛造性条件のみを有するゲームの場合$\tilde{O}{M^{ 1/6}M)$ の後悔上限を達成します。ここで、Mはエピソードの総数、Nはゲームのエージェントの数です。副産物として、単調平均場ゲームの近似ナッシュバランスを計算するための最初の扱いやすいグローバル収束計算アルゴリズムを取得します。

Takeaways、Limitations

Takeaways:
大規模集団逐次対称ゲームの近似ナッシュバランスを効率的に計算する新しいアルゴリズムMF‐OML提案
英合併ゲームと潜在的なゲームの変形を超えてナッシュバランスを証明可能に解決する最初の完全多項時間複雑度アルゴリズム
鍛造平均フィールドゲームの近似ナッシュバランスを計算するための扱いやすいグローバル収束計算アルゴリズムを提供します。
Lasry-Lions 鍛造性条件下での明確な後悔上限の提供
Limitations:
アルゴリズムの性能はLasry-Lions単調条件に依存しています。すべてのゲームに適用できない可能性があります。
後悔上限は平均長近似誤差を含み、実際のナッシュバランスとの差を完全に反映できないことがある。
アルゴリズムの実際の性能はゲームの性質によって異なり、追加の実験的検証が必要です。
👍