本論文は、3Dビジュアルグラウンド(3DVG)で自然言語テキストとして参照される3Dシーン内のオブジェクトを見つける作業について説明します。最近の研究はLLMベースの3DVGデータセット拡張に焦点を当てていますが、これらのデータセットには英語で表現可能なあらゆる種類の質問が含まれていないという制限があります。したがって、この論文は3DVGプロンプトを言語的に分析するフレームワークを提案し、さまざまな言語パターンの視覚的接地方法を評価するための診断データセットであるViGiL3Dを紹介します。既存のオープンな語彙3DVG法を評価し、実際のアプリケーションのためのより困難で分布外の質問に対する理解と目標識別能力がまだ不足していることを示しています。