この論文では、オフライン強化学習(RL)で一般化問題を解決するための新しい方法であるLLM-Driven Policy Diffusion(LLMDPD)を提案します。 LLMDPDは、ジョブ固有のプロンプトを使用してオフラインRLの一般化パフォーマンスを向上させる方法で、テキストベースのジョブ記述と軌跡プロンプトの両方を利用します。大規模言語モデル(LLM)はテキストベースのプロンプトを処理して豊富なタスク関連コンテキストを提供し、トランスモデルは軌道プロンプトをエンコードして基底遷移力学内の構造化された行動パターンをキャプチャします。これらのプロンプトは、コンテキスト認識ポリシーレベルの拡散モデルへの条件付き入力として使用され、RLエージェントが目に見えない操作にも効果的に一般化できるようにします。実験の結果、LLMDPDは、目に見えない作業における最先端のオフラインRL法よりも優れた性能を示し、さまざまな環境における一般化と適応性の向上に対する効果を強調しています。