本論文は、大規模な実データセットから強固な自律走行政策を学習する問題を扱う。オンラインデータ収集の難しさを考慮して、行動複製(BC)技術に基づく一連のモデルを提示し、Transformerベースのエンティティ中心状態表現モデルを含むいくつかのBC基準モデルを比較研究する。しかし、BCモデルは長期間のシミュレーションで脆弱性を示しています。これを解決するために、同じデータとアーキテクチャに最先端のオフライン強化学習アルゴリズムである保守的Q学習(CQL)を適用して、より堅牢なポリシーを学習します。慎重に設計された補償関数を使用して、CQLエージェントはマイナーなエラーから回復し、分布外の状態を回避するための保守的な価値関数を学習します。 Waymo Open Motion Datasetの1,000の未知のシナリオの大規模な評価では、CQLエージェントは最高性能のBC基準モデルより成功率が3.2倍、衝突率が7.4倍低かった。これは、静的専門家データから堅牢で長期間の自律走行ポリシーを学習するために、オフライン強化学習アプローチが重要であることを証明しています。