Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Lagrangian Index Policy for Restless Bandits with Average Reward

Created by
  • Haebom

作者

Konstantin Avrachenkov, Vivek S. Borkar, Pratik Shah

概要

本論文では,長期平均報酬を持つ不安定なマルチアームバンドの問題に関するラグランジインデックスポリシー(LIP)を研究した。具体的には、特定の自然条件下で漸近的に最適であることが知られているヒューリスティックポリシーであるLIPとWhittle Index Policy(WIP)のパフォーマンスを比較します。ほとんどの場合、両方のポリシーのパフォーマンスは非常に似ていますが、WIPのパフォーマンスが低下しても、LIPは非常に優れたパフォーマンスを維持します。モデルレス環境でLIPのオンライン学習方式を得るために、表形式とニューラルネットワークベースの強化学習アルゴリズムを提案します。提案されたLIPの強化学習方法は、WIPの同様の方法よりもはるかに少ないメモリを必要とします。最適なウェブクロールと加重情報のエージングを最小化するために適用される再起動モデルのラグランジュ指数を分析的に計算します。さらに、アームの数が無限大に行くときのホメオパシーの場合、漸近的最適性の新しい証明を交換可能性とde Finettiのクリーンアップに基づいて提示します。

Takeaways、Limitations

Takeaways:
Restless multi-armed bandits問題に対するLIPの優れた性能を実験的に示した。特にWIPの性能が悪い場合でも、LIPは安定した性能を維持します。
LIPのためのメモリ効率的な強化学習アルゴリズムを提案する。
再始動モデルに対するLagrange indexの分析計算を提供します。
ホメオパシーの場合、無限大のアームの漸近的最適性の新しい証明を提示します。
Limitations:
WIPとLIPの性能比較は、特定の条件下で行われ、すべての場合において、LIPがWIPより優れていると判断することはできません。
提案された強化学習アルゴリズムの一般化性能に関するさらなる研究が必要です。
分析計算は特定のモデル(再起動モデル)に限定されます。他のモデルの一般化が必要です。
👍