本論文では,オフラインデータを用いた事前学習と強化学習を利用したオンライン微調整を組み合わせて制御方針を学習する新しい方法を提示した。既存のオンライン学習の初期段階でオフラインポリシーの有用な行動が損なわれる可能性があるという問題を解決するために、オフラインで学習されたポリシーをポリシーセットの1つの候補ポリシーとして使用し、追加の学習を担当する別のポリシーを追加してポリシーセットを拡張する技術を提案します。両方のポリシーは環境と対話するように適応的に設定され、オフラインポリシーはオンライン学習中も完全に維持されます。これにより、オフラインポリシーの有用な行動を維持しながら自然に探索に参加できるようにし、新しく追加されたポリシーを通じて新しい有用な行動を学習することができます。いくつかのタスクの実験結果は、提案された方法の効果を示しています。