Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Less is More: Lean yet Powerful Vision-Language Model for Autonomous Driving

Created by
  • Haebom

作者

Sheng Yang, Tong Zhan, Guancheng Chen, Yanfeng Lu, Jian Wang

Max-V1: End-to-End Autonomous Driving via Language-Based Trajectory Prediction

概要

本研究では、自律走行を一般化された言語に再概念化し、軌道計画作業を次のウェイポイント予測に定式化します。 Max-V1は、一段階のエンドツーエンドの自律走行のための新しいフレームワークです。このフレームワークは、走行の本質的な順次性と一致する単一パス生成パラダイムを提示します。このアプローチは、VLM(Vision-Language Model)の生成能力を活用して、フロントカメラ入力から直接のエンドツーエンド軌道予測を可能にします。この方法の効率は、統計的モデリングから派生した原則的な監督戦略によって裏付けられています。これは、明確に定義された学習目標を提供し、大規模な専門家のデモンストレーションから模倣学習を通じて複雑な走行ポリシーを習得するのに非常に適しています。経験的に、この方法はnuScenesデータセットで最高レベルのパフォーマンスを達成し、以前のベースラインに対して30%以上の改善された全体的な改善を提供します。また、さまざまな車両から取得したクロスドメインデータセットで優れた一般化性能を示し、クロスカーの堅牢性と適応性に対する注目すべき可能性を示しています。この経験的強みのために、この研究は基本的な走行動作を可能にするモデルを導入し、より強力な自律走行エージェントの開発の基礎を築きます。コードは出版に同梱される予定です。

Takeaways、Limitations

シングルパス生成パラダイムを使用して自律走行問題を解決
VLMを利用してフロントカメラ入力から直接軌跡予測を実行するエンドツーエンドフレームワークの提示。
NuScenesデータセットでSOTAパフォーマンスを達成し、従来の方法と比較して30%以上を向上。
クロスドメインデータセットにおける優れた一般化性能を示すクロスカーロバスト性と適応性の実証
モデル開発のための基盤づくり(コード公開予定)。
論文の具体的なLimitationsへの言及はありません。
👍