Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

CaRL: Learning Scalable Planning Policies with Simple Rewards

Created by
  • Haebom

作者

Bernhard Jaeger, Daniel Dauner, Jens Bei{\ss}wenger, Simon Gerstenecker, Kashyap Chitta, Andreas Geiger

概要

本論文では、自律走行における特権計画のための強化学習(RL)を研究します。従来のアプローチはルールベースですが、スケーラビリティが低下します。一方、RLはスケーラビリティが高く、模倣学習などの累積エラーの問題はありません。従来の自律走行RLアプローチは、進行状況、位置、方向など、複数の個々の補償を合計する複雑な補償関数を使用する。本論文は,ミニバッチサイズが増加した場合,PPOはこれらの補償関数を最適化しないことを示した。したがって、本論文では、経路完了と呼ばれる単一の直感的な補償項目を最適化する新しい補償設計を提案する。違反は、エピソードを終了するか、パスの完了を乗算的に減らすことによって処罰されます。提案された単純な報酬で訓練されたPPOは、より大きなミニバッチサイズでもうまく拡張され、パフォーマンスが向上することを確認しました。大きなミニバッチサイズを使用したトレーニングは、分散データの並列化により効率的な拡張を可能にします。 CARLAでは3億サンプル、nuPlanでは5億サンプルを単一の8-GPUノードに拡張しました。結果モデルは、CARLA longest6 v2ベンチマークで64DSを達成し、より複雑な補償を使用する他のRL法よりもはるかに優れた性能を示しました。 CARLAで使用される方法を最小限に修正し、nuPlanでも最高の学習ベースのアプローチを達成しました。 Val14ベンチマークでは、非反応型交通量91.3点、反応型交通量90.6点を記録し、以前の研究より10倍速い。

Takeaways、Limitations

Takeaways:
単純なパス完了補償関数を使用して、PPOのスケーラビリティを大幅に向上させました。
大規模なデータセットを効率的に学習する方法を紹介しました。
CARLAとnuPlan両方のベンチマークでSOTAパフォーマンスを達成しました。
従来の複雑な補償関数より単純で効果的な補償関数を提示した。
Limitations:
提案された方法がすべての自律走行環境に適用できるかどうかは追加の研究が必要です。
補償関数の簡略化により、特定の状況でパフォーマンスの低下が発生する可能性があります。
8-GPUノードを使用した実験結果であるため、より少ないGPUを持つ環境でのパフォーマンスは確認されていません。
👍