Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Data-Driven Exploration for a Class of Continuous-Time Indefinite Linear--Quadratic Reinforcement Learning Problems

Created by
  • Haebom

作者

Yilie Huang, Xun Yu Zhou

概要

本論文はHuang et al。 (2024)の研究で扱われた連続時間確率的線形二次(LQ)制御問題のような種類の問題の強化学習(RL)を研究します。状態はスカラー値であり、実行制御補償がない状態でボラティリティが状態と制御の両方に依存する問題です。論文では、非モデルベースのデータ駆動型ナビゲーションメカニズムを提案しています。従来の研究(Huang et al。、2024)で使用されている一定または決定的な検索スケジュールとは異なり、提案された適応検索アプローチは最小限の調整で学習効率を高めます。柔軟性にもかかわらず、この方法は、この種のLQ問題に対する最良の非モデルベースの結果と一致する準線形後悔境界を達成する。以前は、固定されたナビゲーションスケジュールを通じてのみ導出されていました。数値実験は,適応的探索が非適応的非モデルベースおよびモデルベースの方法と比較して収束を加速し,後悔性能を改善することを示した。

Takeaways、Limitations

Takeaways:
適応的探索メカニズムが強化学習の学習効率を改善できることを示した。
最小限の調整で最高レベルの準線形後悔境界を達成。
非適応法に対する収束率の改善と後悔性能の向上を実験的に証明した。
Limitations:
現在のスカラー値状態と実行制御補償がない特定の種類のLQ問題にのみ適用可能です。
より複雑なシステムやさまざまな問題設定への一般化の可能性に関するさらなる研究が必要です。
提案された適応的探索機構の理論的性能分析の限界
👍