Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models

Created by
  • Haebom

作者

Sung-Yeon Park, Can Cui, Yunsheng Ma, Ahmadreza Moradipari, Rohit Gupta, Kyungtae Han, Ziran Wang

概要

この論文では、マルチモード大規模言語モデル(MLLM)の運転シーン理解能力を評価するための新しいベンチマークであるNuPlanQA-Evalと、大規模データセットNuPlanQA-1Mを紹介します。 NuPlanQA-1Mは、100万の実際の世界視覚的質疑応答(VQA)ペアで構成されており、道路環境認識、空間関係認識、自己中心推論の3つのコア技術にわたって9つのサブタスクに分類されます。また、マルチビュー画像から得られた鳥瞰図(BEV)の特徴をMLLMに統合したBEV-LLMを提案し、これにより、既存のMLLMが運転シーン特有の認識と自己中心的な観点からの空間推論に困難を経験することを示しています。 BEV-LLMは、9つのサブタスクのうち6つで他のモデルを上回るパフォーマンスを示し、BEV統合がマルチビューMLLMのパフォーマンスを向上させることを実証しています。 NuPlanQAデータセットは公開されています。

Takeaways、Limitations

Takeaways:
マルチビュー、マルチモード運転シーンを理解するための新しいベンチマーク(NuPlanQA-Eval)と大規模データセット(NuPlanQA-1M)の提示。
BEV特徴統合によりMLLMの運転シーン理解性能向上の可能性を提示(BEV-LLM)
既存MLLMの運転シーン認識と空間推論のLimitationsを明確に明らかにした。
公開されたデータセットによるさらなる研究の活性化の期待。
Limitations:
提示されたBEV-LLMのパフォーマンス向上が特定のデータセットに限定される可能性。
様々な運転環境と状況の一般化性能に関するさらなる研究が必要
9つのサブタスクのうち3つで他のモデルより性能が低い点は今後改善が必要な部分。
👍