Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Audio-3DVG : audio unifié – fusion de nuages de points pour une mise à la terre visuelle 3D

Created by
  • Haebom

Auteur

Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy MH Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang

Contour

Cet article propose un nouveau cadre pour résoudre le problème de l'ancrage visuel 3D basé sur l'audio (Audio-3DVG). Contrairement aux recherches existantes sur l'ancrage visuel 3D basé sur le texte, nous explorons comment utiliser le langage parlé pour localiser des objets cibles dans des nuages de points 3D. Plutôt que de traiter la parole comme une entrée unique, nous abordons cette tâche avec deux composants : (i) un module de détection de mention d'objet et (ii) un module d'attention audio-guidée. Le module de détection de mention d'objet identifie explicitement les objets mentionnés dans la parole, tandis que le module d'attention audio-guidée modélise l'interaction entre les candidats cibles et les objets mentionnés afin d'améliorer l'identification dans des environnements 3D encombrés. De plus, nous synthétisons les descriptions vocales sur des jeux de données 3DVG existants, tels que ScanRefer, Sr3D et Nr3D, afin de faciliter l'analyse comparative. Les résultats expérimentaux démontrent que l'Audio-3DVG proposé atteint non seulement des performances de pointe en matière d'ancrage basé sur l'audio, mais est également compétitif par rapport aux méthodes basées sur le texte.

Takeaways, Limitations_

Takeaways:
Présentation d'une nouvelle approche de l'ancrage visuel 3D basé sur la parole (Audio-3DVG) et réalisation de performances de pointe.
Améliorer la compréhension de l’environnement 3D grâce à l’intégration de la parole et des informations spatiales.
Présentation de la possibilité d'intégrer le langage parlé dans les tâches de vision 3D.
Prise en charge de l'analyse comparative via la synthèse de description vocale sur des ensembles de données 3DVG existants.
Limitations:
Dépendance aux données vocales synthétisées. Elles peuvent ne pas refléter fidèlement les diverses caractéristiques vocales des environnements réels.
Les performances des modules de détection de mention d'objet et de guidage vocal peuvent avoir un impact significatif sur les performances globales du système. Chaque module peut être amélioré.
Des recherches supplémentaires sont nécessaires sur la robustesse à divers environnements vocaux (bruit, dialectes, etc.).
👍