Cet article propose un nouveau cadre pour résoudre le problème de l'ancrage visuel 3D basé sur l'audio (Audio-3DVG). Contrairement aux recherches existantes sur l'ancrage visuel 3D basé sur le texte, nous explorons comment utiliser le langage parlé pour localiser des objets cibles dans des nuages de points 3D. Plutôt que de traiter la parole comme une entrée unique, nous abordons cette tâche avec deux composants : (i) un module de détection de mention d'objet et (ii) un module d'attention audio-guidée. Le module de détection de mention d'objet identifie explicitement les objets mentionnés dans la parole, tandis que le module d'attention audio-guidée modélise l'interaction entre les candidats cibles et les objets mentionnés afin d'améliorer l'identification dans des environnements 3D encombrés. De plus, nous synthétisons les descriptions vocales sur des jeux de données 3DVG existants, tels que ScanRefer, Sr3D et Nr3D, afin de faciliter l'analyse comparative. Les résultats expérimentaux démontrent que l'Audio-3DVG proposé atteint non seulement des performances de pointe en matière d'ancrage basé sur l'audio, mais est également compétitif par rapport aux méthodes basées sur le texte.