Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DRAMA-X: A Fine-grained Intent Prediction and Risk Reasoning Benchmark For Driving

Created by
  • Haebom

作者

Mihir Godbole, Xiangbo Gao, Zhengzhong Tu

概要

本論文は、自律走行における安全のために脆弱な道路利用者(VRU)の短期移動予測の重要性を強調し、特に曖昧で危険な行動が多い都市環境での予測困難を指摘します。従来のビジュアル言語モデル(VLM)はオープンな語彙認識を可能にしましたが、微細な意図推論への活用はまだ未開拓の分野です。このギャップを解消するために、この論文はDRAMAデータセットに基づいて自動注釈パイプラインによって生成された微細なベンチマークであるDRAMA-Xを提示します。 DRAMA-Xには、5,686の事故リスクフレームにオブジェクトバウンディングボックス、9方向の意図分類、バイナリリスクスコア、専門家によって生成された自律行動提案、および説明的な動きの要約が含まれています。これらの注釈は、自律走行意思決定の中心となる4つの相互関連タスク(オブジェクトの検出、意図予測、リスク評価、行動提案)の構造的評価を可能にします。基準ベースラインとして、本論文は自車の推論パイプラインを反映する軽量の、訓練を必要としないフレームワークであるSGG-Intentを提案します。 SGG-Intentは、VLMベースの検出器を使用して視覚入力からシーングラフを順番に生成し、意図を推論し、リスクを評価し、大規模言語モデルに基づく構成的推論ステップを使用して行動を推奨します。さまざまな最新のVLMを評価し、DRAMA-Xの4つの作業全体にわたるパフォーマンスを比較します。実験結果は、シーングラフベースの推論が、特に状況的手がかりが明示的にモデル化されたときの意図予測とリスク評価を改善することを示しています。

Takeaways、Limitations

Takeaways:
DRAMA-Xベンチマークは、自律走行におけるVRUの意図予測のための新しい基準を提示します。
SGG-Intentは、VLMを活用した意図的な推論とリスク評価の効果的なアプローチを提示します。
シーングラフベースの推論がVRUの意図予測とリスク評価の精度を改善することを実験的に証明した。
Limitations:
DRAMA-Xデータセットのサイズと多様性が限られている可能性があります。
SGG-Intentのパフォーマンスは、使用されるVLMとLLMのパフォーマンスに依存します。
実際の環境での一般化性能に関するさらなる研究が必要です。
さまざまな環境や状況のロバースト性評価が不足する可能性があります。
👍