Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models

Created by
  • Haebom

作者

Dingming Li, Hongxing Li, Zixuan Wang, Yuchen Yan, Hang Zhang, Siqi Chen, Guiyang Hou, Shengpei Jiang, Wenqi Zhang, Yongliang Shen, Weiming Lu, Yueting Zhuang

ViewSpatial-Bench: Multi-Viewpoint Spatial Localization Recognition Evaluation

概要

視覚言語モデル(VLM)は視覚コンテンツの理解と推論能力を示したが、交差点の理解と空間的推論が必要な作業には困難がある。現在、VLMは主にカメラ視点の磁気中心空間推論に優れているが、他の個体の空間基準枠を適用しなければならない場合、打者中心視点に一般化することは失敗する。 ViewSpatial-Benchは、多視点空間ローカライゼーション認識評価用に設計された最初の包括的なベンチマークで、5種類の作業を含み、正確な方向ラベルを生成する自動3D注釈パイプラインをサポートします。さまざまなVLMのViewSpatial-Benchの包括的な評価は、かなりのパフォーマンスギャップを示しています。モデルはカメラの視点作業で合理的な性能を示していますが、人間の視点から推定すると精度が低下します。多視点空間データセットでVLMを微調整して、全作業で46.24%のパフォーマンス向上を達成しました。これは、3D空間関係モデリングがVLMの空間理解能力を向上させるという証拠を提供する。

Takeaways、Limitations

現在、VLMは自己中心的(カメラ視点)空間推論に強いが、打者中心的視点では一般化に失敗する。
ViewSpatial-Benchは、多視点空間ローカライゼーション認識評価のための最初の包括的なベンチマークです。
3D空間関係のモデリングは、VLMの空間理解能力を向上させる。
VLMの微調整により、全体的なパフォーマンスを向上させることができます。
この研究は空間知能の重要なベンチマークを提供します。
👍