本論文では,長期平均報酬を持つ不安定なマルチアームバンドの問題に関するラグランジインデックスポリシー(LIP)を研究した。具体的には、特定の自然条件下で漸近的に最適であることが知られているヒューリスティックポリシーであるLIPとWhittle Index Policy(WIP)のパフォーマンスを比較します。ほとんどの場合、両方のポリシーのパフォーマンスは非常に似ていますが、WIPのパフォーマンスが低下しても、LIPは非常に優れたパフォーマンスを維持します。モデルレス環境でLIPのオンライン学習方式を得るために、表形式とニューラルネットワークベースの強化学習アルゴリズムを提案します。提案されたLIPの強化学習方法は、WIPの同様の方法よりもはるかに少ないメモリを必要とします。最適なウェブクロールと加重情報のエージングを最小化するために適用される再起動モデルのラグランジュ指数を分析的に計算します。さらに、アームの数が無限大に行くときのホメオパシーの場合、漸近的最適性の新しい証明を交換可能性とde Finettiのクリーンアップに基づいて提示します。