SPUR는 대규모 오디오-언어 모델(LALMs)에 최소한의 구조적 변경을 통해 공간 인식을 부여하는 경량 플러그인 접근 방식입니다. 이는 (i) First-Order Ambisonics (FOA) 인코더를 사용하여 (W, X, Y, Z) 채널을 회전 인식, 청취자 중심의 공간 특징으로 매핑하고, 다중 모달 어댑터를 통해 대상 LALMs에 통합합니다. (ii) 상대적 방향, 고도, 거리 및 중첩에 중점을 둔 SPUR-Set, 공개 소스 FOA 녹음과 제어된 시뮬레이션을 결합한 공간 QA 데이터 세트를 사용합니다. SPUR-Set에서 모델을 미세 조정하면 일반적인 오디오 이해를 유지하면서 공간 QA 및 다중 화자 속성을 일관되게 개선합니다.