Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ViGiL3D: A Linguistically Diverse Dataset for 3D Visual Grounding

Created by
  • Haebom

作者

Austin T. Wang, ZeMing Gong, Angel X.チャン

概要

本論文は、3Dビジュアルグラウンド(3DVG)で自然言語テキストとして参照される3Dシーン内のオブジェクトを見つける作業について説明します。最近の研究はLLMベースの3DVGデータセット拡張に焦点を当てていますが、これらのデータセットには英語で表現可能なあらゆる種類の質問が含まれていないという制限があります。したがって、この論文は3DVGプロンプトを言語的に分析するフレームワークを提案し、さまざまな言語パターンの視覚的接地方法を評価するための診断データセットであるViGiL3Dを紹介します。既存のオープンな語彙3DVG法を評価し、実際のアプリケーションのためのより困難で分布外の質問に対する理解と目標識別能力がまだ不足していることを示しています。

Takeaways、Limitations

Takeaways:さまざまな言語パターンを含む3DVGデータセットViGiL3Dを提示し、既存の方法の限界を明らかにし、今後の研究方向を提示します。実際のアプリケーションに近いより多様で困難な質問に対する3DVGモデルの性能評価基準を設ける。
Limitations: ViGiL3Dデータセットがすべての可能な言語パターンを完全に網羅するわけではないかもしれません。提示されたフレームワークとデータセットの一般化性能に関する追加の研究が必要です。現在、3DVG法の実際の世界の適用可能性の制限を明確に示していますが、改善の方向についての具体的な提案は欠けています。
👍