Audio-3DVG:Unified Audio - Point Cloud Fusion for 3D Visual Grounding
Created by
Haebom
作者
Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy MH Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang
概要
本稿では、音声ベースの3Dビジュアルグラウンド(Audio-based 3D Visual Grounding、Audio-3DVG)の問題を解決するための新しいフレームワークを提案します。従来のテキストベースの3Dビジュアルアース研究とは異なり、音声言語を活用して3Dポイントクラウドでターゲットオブジェクトを見つける方法について説明します。この目的のために、音声を単一の入力として扱う代わりに、(i)オブジェクト参照検出モジュールと(ii)音声ガイド注意モジュールの2つのコンポーネントにアクセスします。オブジェクト参照検出モジュールは音声で言及されているオブジェクトを明示的に識別し、音声ガイダンス注意モジュールはターゲット候補と言及されたオブジェクトとの相互作用をモデル化し、混雑した3D環境での識別力を向上させます。また、ScanRefer、Sr3D、Nr3Dなどの既存の3DVGデータセットに音声記述を合成してベンチマークをサポートします。実験の結果、提案されたAudio-3DVGは、音声ベースのグランドで最先端のパフォーマンスを達成するだけでなく、テキストベースの方法とも競争力があることを示しています。