本論文は、自律走行における安全のために脆弱な道路利用者(VRU)の短期移動予測の重要性を強調し、特に曖昧で危険な行動が多い都市環境での予測困難を指摘します。従来のビジュアル言語モデル(VLM)はオープンな語彙認識を可能にしましたが、微細な意図推論への活用はまだ未開拓の分野です。このギャップを解消するために、この論文はDRAMAデータセットに基づいて自動注釈パイプラインによって生成された微細なベンチマークであるDRAMA-Xを提示します。 DRAMA-Xには、5,686の事故リスクフレームにオブジェクトバウンディングボックス、9方向の意図分類、バイナリリスクスコア、専門家によって生成された自律行動提案、および説明的な動きの要約が含まれています。これらの注釈は、自律走行意思決定の中心となる4つの相互関連タスク(オブジェクトの検出、意図予測、リスク評価、行動提案)の構造的評価を可能にします。基準ベースラインとして、本論文は自車の推論パイプラインを反映する軽量の、訓練を必要としないフレームワークであるSGG-Intentを提案します。 SGG-Intentは、VLMベースの検出器を使用して視覚入力からシーングラフを順番に生成し、意図を推論し、リスクを評価し、大規模言語モデルに基づく構成的推論ステップを使用して行動を推奨します。さまざまな最新のVLMを評価し、DRAMA-Xの4つの作業全体にわたるパフォーマンスを比較します。実験結果は、シーングラフベースの推論が、特に状況的手がかりが明示的にモデル化されたときの意図予測とリスク評価を改善することを示しています。