Bài báo này đề xuất một khuôn khổ mới để giải quyết vấn đề nền tảng thị giác 3D dựa trên âm thanh (Audio-3DVG). Không giống như nghiên cứu nền tảng thị giác 3D dựa trên văn bản hiện có, chúng tôi giải quyết vấn đề sử dụng ngôn ngữ nói để định vị các đối tượng mục tiêu trong đám mây điểm 3D. Thay vì coi lời nói là một đầu vào duy nhất, chúng tôi tiếp cận nhiệm vụ này với hai thành phần: (i) mô-đun phát hiện đề cập đến đối tượng và (ii) mô-đun chú ý hướng dẫn bằng âm thanh. Mô-đun phát hiện đề cập đến đối tượng xác định rõ ràng các đối tượng được đề cập trong lời nói, và mô-đun chú ý hướng dẫn bằng âm thanh mô hình hóa tương tác giữa các ứng viên mục tiêu và các đối tượng được đề cập để cải thiện khả năng nhận dạng trong môi trường 3D đông đúc. Hơn nữa, chúng tôi tổng hợp các mô tả bằng giọng nói vào các tập dữ liệu 3DVG hiện có, chẳng hạn như ScanRefer, Sr3D và Nr3D, để hỗ trợ đánh giá chuẩn. Kết quả thử nghiệm chứng minh rằng Audio-3DVG được đề xuất không chỉ đạt hiệu suất tiên tiến trong nền tảng dựa trên âm thanh mà còn cạnh tranh với các phương pháp dựa trên văn bản.