Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

SeqVLM: Proposal-Guided Multi-View Sequences Reasoning via VLM for Zero-Shot 3D Visual Grounding

Created by
  • Haebom

作者

Jiawen Lin, Shiran Bian, Yihang Zhu, Wenbin Tan, Yachao Zhang, Yuan Xie, Yanyun Qu

概要

この論文は、限られた環境で高精度を達成するための指導学習方法とは異なり、現実世界の用途に有利なゼロショット3Dビジュアルグラウンド(3DVG)に焦点を当てています。既存のゼロショット方式の空間的推論の限界とコンテキストの省略または詳細の低下の問題を解決するために、マルチビューの実際のシーン画像と空間情報を活用する新しいゼロショット3DVGフレームワークであるSeqVLMを提案します。 SeqVLMは、3Dセマンティックスプリットネットワークを介して3Dインスタンス提案を生成し、セマンティックフィルタリングを介して提案を改善し、セマンティックに関連する候補のみを維持します。提案ベースのマルチビュー投影戦略により、候補提案を実際のシーン画像シーケンスに投影し、3D点雲から画像への変換中に空間関係と文脈的詳細を保存する。さらに、VLMの計算負荷を軽減するためにシーケンスクエリプロンプトを繰り返し処理する動的スケジューリングメカニズムを実装し、VLMのクロスモード推論機能を利用してテキストで指定されたオブジェクトを識別します。 ScanReferとNr3Dベンチマークの実験結果は、従来のゼロショット法よりもそれぞれ4.0%と5.2%向上したAcc@0.25スコア55.6%と53.2%を達成し、最先端の性能を示しました。コードはhttps://github.com/JiawLin/SeqVLMで利用可能です。

Takeaways、Limitations

Takeaways:
マルチビュー画像と空間情報の活用によるゼロショット3DVGパフォーマンスの向上と一般化の可能性の向上
動的スケジューリング機構によるVLM計算負荷の低減
ScanReferとNr3Dベンチマークで最先端のパフォーマンスを達成。
実際の世界の適用可能性の向上。
Limitations:
提案された方法の性能は、使用される3DセマンティックスプリットネットワークおよびVLMの性能に依存し得る。
マルチビュー画像処理による計算コストの増加の可能性
特定のタイプのシーンやオブジェクトに対しては性能低下の可能性が存在。
様々な環境での一般化性能に関する追加研究の必要性
👍