Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

LNUCB-TA: Linear-nonlinear Hybrid Bandit Learning with Temporal Attention

Created by
  • Haebom

作者

Hamed Khosravi, Mohammad Reza Shafie, Ahmed Shoyeb Raihan, Srinjoy Das, Imtiaz Ahmed

概要

既存の状況的マルチ武装バンディット(MAB)アルゴリズムは、すべての腕で長期的な傾向と局所的なパターンを効果的に捉えることができず、補償構造が急速に変化する環境で最適ではない性能を示します。近隣(k-NN)とグローバルベースおよび地域ベースのアテンションナビゲーションメカニズムを統合したハイブリッドバンディットモデルであるLNUCB-TAを提案します。メカニズムは、過去のパフォーマンスと選択頻度に基づいてアームをランク付けし、探索率を手動で調整することなくリアルタイムでナビゲーションと活用を動的に調整します。様々な探索率の堅牢性の観点から、最先端の線形、非線形、およびハイブリッドバンディットを大幅に上回っていることを示しています。

Takeaways、Limitations

Takeaways:
急速に変化する環境でも効果的に適応する新しいハイブリッドバンディットアルゴリズムLNUCB-TAの提示
非線形K‐NNとアテンションメカニズムを組み込んで時間複雑度を低減し時空間パターン認識を改善
手動ナビゲーション調整なしで動的ナビゲーションと活用を調整する
最先端のアルゴリズムに対する累積および平均補償、収束速度、堅牢性の向上
理論解析による下位線形後悔境界証明
Limitations:
K-NNのパラメータ(k)調整に関する追加の研究が必要
高次元データのスケーラビリティと一般化性能評価が必要
実際の用途に広範な実験的検証が必要
👍