Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Audio-3DVG: Unified Audio -- Point Cloud Fusion for 3D Visual Grounding

Created by
  • Haebom

저자

Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy M. H. Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang

개요

본 논문은 음성 기반 3D 시각적 접지(Audio-based 3D Visual Grounding, Audio-3DVG) 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. 기존의 텍스트 기반 3D 시각적 접지 연구와 달리, 음성 언어를 활용하여 3D 점 구름에서 목표 객체를 찾는 방법을 다룹니다. 이를 위해 음성을 단일 입력으로 처리하는 대신, (i) 객체 언급 탐지(Object Mention Detection) 모듈과 (ii) 음성 안내 주의(Audio-Guided Attention) 모듈의 두 가지 구성 요소로 접근합니다. 객체 언급 탐지 모듈은 음성에서 언급되는 객체를 명시적으로 식별하고, 음성 안내 주의 모듈은 목표 후보와 언급된 객체 간의 상호 작용을 모델링하여 혼잡한 3D 환경에서의 식별력을 향상시킵니다. 또한, ScanRefer, Sr3D, Nr3D 등의 기존 3DVG 데이터셋에 음성 설명을 합성하여 벤치마킹을 지원합니다. 실험 결과, 제안된 Audio-3DVG는 음성 기반 접지에서 최첨단 성능을 달성할 뿐만 아니라, 텍스트 기반 방법과도 경쟁력을 갖는다는 것을 보여줍니다.

시사점, 한계점

시사점:
음성 기반 3D 시각적 접지(Audio-3DVG) 분야에 대한 새로운 접근법 제시 및 최첨단 성능 달성.
음성 정보와 공간 정보의 통합을 통한 3D 환경 이해 향상.
음성 언어를 3D 비전 과제에 통합하는 가능성 제시.
기존 3DVG 데이터셋에 대한 음성 설명 합성을 통한 벤치마킹 지원.
한계점:
합성된 음성 데이터에 대한 의존성. 실제 환경의 다양한 음성 특징을 충분히 반영하지 못할 가능성.
객체 언급 탐지 및 음성 안내 주의 모듈의 성능이 전체 시스템 성능에 큰 영향을 미칠 수 있음. 각 모듈의 개선 여지 존재.
다양한 음성 환경(소음, 방언 등)에 대한 robustness에 대한 추가적인 연구 필요.
👍