본 논문은 음성 기반 3D 시각적 접지(Audio-based 3D Visual Grounding, Audio-3DVG) 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. 기존의 텍스트 기반 3D 시각적 접지 연구와 달리, 음성 언어를 활용하여 3D 점 구름에서 목표 객체를 찾는 방법을 다룹니다. 이를 위해 음성을 단일 입력으로 처리하는 대신, (i) 객체 언급 탐지(Object Mention Detection) 모듈과 (ii) 음성 안내 주의(Audio-Guided Attention) 모듈의 두 가지 구성 요소로 접근합니다. 객체 언급 탐지 모듈은 음성에서 언급되는 객체를 명시적으로 식별하고, 음성 안내 주의 모듈은 목표 후보와 언급된 객체 간의 상호 작용을 모델링하여 혼잡한 3D 환경에서의 식별력을 향상시킵니다. 또한, ScanRefer, Sr3D, Nr3D 등의 기존 3DVG 데이터셋에 음성 설명을 합성하여 벤치마킹을 지원합니다. 실험 결과, 제안된 Audio-3DVG는 음성 기반 접지에서 최첨단 성능을 달성할 뿐만 아니라, 텍스트 기반 방법과도 경쟁력을 갖는다는 것을 보여줍니다.