Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving

Created by
  • Haebom

作者

Antonio Guillen-Perez

概要

本論文は、大規模な実データセットから強固な自律走行政策を学習する問題を扱う。オンラインデータ収集の難しさを考慮して、行動複製(BC)技術に基づく一連のモデルを提示し、Transformerベースのエンティティ中心状態表現モデルを含むいくつかのBC基準モデルを比較研究する。しかし、BCモデルは長期間のシミュレーションで脆弱性を示しています。これを解決するために、同じデータとアーキテクチャに最先端のオフライン強化学習アルゴリズムである保守的Q学習(CQL)を適用して、より堅牢なポリシーを学習します。慎重に設計された補償関数を使用して、CQLエージェントはマイナーなエラーから回復し、分布外の状態を回避するための保守的な価値関数を学習します。 Waymo Open Motion Datasetの1,000の未知のシナリオの大規模な評価では、CQLエージェントは最高性能のBC基準モデルより成功率が3.2倍、衝突率が7.4倍低かった。これは、静的専門家データから堅牢で長期間の自律走行ポリシーを学習するために、オフライン強化学習アプローチが重要であることを証明しています。

Takeaways、Limitations

Takeaways:
オフライン強化学習(CQL)を使用すると、行動複製(BC)よりもはるかに堅牢で長期間の自律走行ポリシーを学習できることがわかります。
エンティティ中心の状態表現を使用したTransformerベースのモデルは、BC技術では優れたパフォーマンスを示していますが、オフライン強化学習と組み合わせると、さらに向上したパフォーマンスが得られます。
慎重に設計された補償関数は、CQLエージェントの堅牢性に重要な役割を果たします。
Waymo Open Motion Datasetを用いた大規模実験結果を通じて提示された方法の効果を検証した。
Limitations:
補償関数の設計は依然として挑戦的な課題であり、補償関数の設計によって性能が大きく影響を受ける可能性があります。
CQLアルゴリズムの計算コストが高い可能性があります。
実際の環境でのパフォーマンスには追加の検証が必要です。
使用されるデータセットの特性によって一般化性能が異なる場合がある。
👍