Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Edge-Based Multimodal Sensor Data Fusion with Vision Language Models (VLMs) for Real-time Autonomous Vehicle Accident Avoidance

Created by
  • Haebom

作者

Fengze Yang, Bo Yu, Yang Zhou, Xuewen Luo, Zhengzhong Tu, Chenxi Liu

概要

本論文では、自律走行システムの検知限界を克服するために車両物体通信(V2X)を統合したリアルタイム軽量ビジョン-言語モデルベースの走行経路計画フレームワークであるREACT(Real-time Edge-based Autonomous Co-pilot Trajectory planner)を提案します。 REACTは、軽量ビジョン - 言語モデル(VLM)を微調整し、インフラストラクチャが提供するリスクアラートと車載センサーデータを統合し、視覚的埋め込みを通じて複雑な交通力学と車両意図を特定し、記号入力から正確な数値データを解釈し、状況に応じた推論を通じて安全中心の最適化された経路を生成します。リアルタイム展開のために、残差経路融合(RTF)設計と特殊なエッジ適応戦略を使用してモデルの複雑さを減らし、推論効率を向上させます。 DeepAccidentベンチマーク評価の結果、衝突率77%減少、VPQ(Video Panoptic Quality)48.2%、推論遅延時間0.57秒を達成し、最先端の性能を示しました。

Takeaways、Limitations

Takeaways:
軽量VLMを用いたリアルタイム協力計画の効率性を実証
言語誘導状況推論による交通安全と応答性の向上の可能性の提示
V2X統合による自律走行システムの検出限界の克服。
RTFとエッジ適応戦略によるリアルタイム性能改善
DeepAccidentベンチマークで最先端のパフォーマンスを達成。
Limitations:
DeepAccidentベンチマークの特定の環境の一般化パフォーマンス検証が必要です。
様々な気象条件と複雑な交通状況に関するロバストニスのさらなる研究が必要
エッジデバイスの性能制約による実際の適用性に関するさらなる研究の必要性
VLMの学習データ偏向による性能劣化の可能性
👍