Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Vision-Language Fusion for Real-Time Autonomous Driving: Goal-Centered Cross-Attention of Camera, HD-Map, & Waypoints

Created by
  • Haebom

作者

Santosh Patapati, Trisanth Srinivasan, Murari Ambati

概要

XYZ-Driveはシングルビジョン言語モデルで、フロントカメラフレーム、25m x 25m航空地図、および次の経由地を入力して操舵と速度を出力する自律走行システムです。トランジットトークンは関連する画像とマップパッチを強調する軽量目標中心交差アテンションレイヤーを使用して行動とテキストの説明をサポートし、融合トークンは部分的に微調整されたLLaMA-3.2 11Bモデルに入力されます。 MD-NEX Outdoor-Drivingベンチマークで95%の成功率と0.80のSPL(Success weighted by Path Length)を達成し、PhysNav-DGより15%向上し、衝突は半分に減少し、単一の分岐のみを使用して効率を大幅に改善しました。 16のablation studyによるパフォーマンスの向上について説明します。

Takeaways、Limitations

Takeaways:
ビジョン、経由地、地図情報の早期トークンレベルの融合により、正確で透明でリアルタイムの自律走行が可能であることを示しています。
単一のビジョン言語モデルを使用して、自律走行の精度と効率を同時に向上させることができます。
目標指向アテンションメカニズムが地図情報を効果的に統合する上で重要な役割を果たしていることを示しています。
特定のタスク(自律走行)にVLMを適用するときの微調整の重要性を強調します。
Limitations:
地図の解像度が下がると(10cmから40cmへ)、レーンエッジがぼやけて衝突率が上がります。高解像度地図の必要性を示唆しています。
すべてのモダリティ(ビジョン、経由地、地図)のいずれかを削除すると、成功率が最大11%減少するため、各モダリティの相互補完的な役割への依存度が高くなります。モダリティ間の堅牢性を向上させる必要があります。
👍