JAEGER: Joint 3D Audio-Visual Grounding and Reasoning in Simulated Physical Environments

작성자

Haebom

카테고리

Empty

저자

Zhan Liu, Changli Tang, Yuxin Wang, Zhiyuan Zhu, Youjun Chen, Yiwen Shao, Tianzi Wang, Lei Ke, Zengrui Jin, Chao Zhang

💡 개요

기존 오디오-비주얼 대규모 언어 모델(AV-LLMs)이 2D 영상과 단일 채널 음성에 국한되어 3D 공간에서의 신뢰할 수 있는 소스 위치 파악 및 공간 추론에 한계를 보였습니다. 본 논문은 RGB-D 관측과 다채널 앰비소닉스를 통합하여 JAEGER라는 프레임워크를 제안하며, 이를 통해 AV-LLM을 3D 공간으로 확장하여 공동 공간 접지 및 추론을 가능하게 합니다.

🔑 시사점 및 한계

•

3D 공간에서의 오디오-비주얼 상호작용 및 추론을 위한 명시적인 3D 모델링의 중요성을 강조합니다.

•

신경 강도 벡터(Neural IV)라는 새로운 학습형 공간 음향 표현을 통해 오버랩되는 소음 환경에서도 정확한 방향 탐지를 개선합니다.

•

61,000개의 샘플로 구성된 시뮬레이션된 물리 환경 기반의 SpatialSceneQA 벤치마크를 구축하여 대규모 학습 및 체계적인 평가를 지원합니다.

•

현재 연구는 시뮬레이션 환경에 국한되어 있어 실제 물리 환경으로의 일반화 및 적용 가능성에 대한 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage