Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Audio-3DVG:Unified Audio - Point Cloud Fusion for 3D Visual Grounding

Created by
  • Haebom

作者

Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy MH Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang

概要

本稿では、音声ベースの3Dビジュアルグラウンド(Audio-based 3D Visual Grounding、Audio-3DVG)の問題を解決するための新しいフレームワークを提案します。従来のテキストベースの3Dビジュアルアース研究とは異なり、音声言語を活用して3Dポイントクラウドでターゲットオブジェクトを見つける方法について説明します。この目的のために、音声を単一の入力として扱う代わりに、(i)オブジェクト参照検出モジュールと(ii)音声ガイド注意モジュールの2つのコンポーネントにアクセスします。オブジェクト参照検出モジュールは音声で言及されているオブジェクトを明示的に識別し、音声ガイダンス注意モジュールはターゲット候補と言及されたオブジェクトとの相互作用をモデル化し、混雑した3D環境での識別力を向上させます。また、ScanRefer、Sr3D、Nr3Dなどの既存の3DVGデータセットに音声記述を合成してベンチマークをサポートします。実験の結果、提案されたAudio-3DVGは、音声ベースのグランドで最先端のパフォーマンスを達成するだけでなく、テキストベースの方法とも競争力があることを示しています。

Takeaways、Limitations

Takeaways:
音声ベースの3Dビジュアルグラウンド(Audio-3DVG)分野への新しいアプローチの提示と最先端のパフォーマンスの達成。
音声情報と空間情報の統合による3D環境理解の向上
音声言語を3Dビジョン課題に統合する可能性を提示します。
既存の3DVGデータセットの音声記述合成によるベンチマークサポート。
Limitations:
合成された音声データへの依存性。実際の環境の様々な音声特徴を十分に反映できない可能性。
オブジェクト参照検出と音声ガイド注意モジュールのパフォーマンスがシステム全体のパフォーマンスに大きな影響を与える可能性があります。各モジュールの改善の余地がある。
さまざまな音声環境(騒音、方言など)の Robustness に関する追加の研究が必要です。
👍