本論文はHuang et al。 (2024)の研究で扱われた連続時間確率的線形二次(LQ)制御問題のような種類の問題の強化学習(RL)を研究します。状態はスカラー値であり、実行制御補償がない状態でボラティリティが状態と制御の両方に依存する問題です。論文では、非モデルベースのデータ駆動型ナビゲーションメカニズムを提案しています。従来の研究(Huang et al。、2024)で使用されている一定または決定的な検索スケジュールとは異なり、提案された適応検索アプローチは最小限の調整で学習効率を高めます。柔軟性にもかかわらず、この方法は、この種のLQ問題に対する最良の非モデルベースの結果と一致する準線形後悔境界を達成する。以前は、固定されたナビゲーションスケジュールを通じてのみ導出されていました。数値実験は,適応的探索が非適応的非モデルベースおよびモデルベースの方法と比較して収束を加速し,後悔性能を改善することを示した。