본 논문은 시청각 정보가 상충하는 상황에서 인간과 인공지능의 소리 위치 인식 능력을 비교 분석한 연구이다. 인간은 시각 정보가 잘못되었더라도 청각 정보를 우선하여 소리의 위치를 정확하게 파악하는 반면, 최첨단 다중 모달 AI 모델들은 시각 정보에 의존하는 경향이 강하며, 시각 정보가 모순되거나 부재할 경우 성능이 크게 저하되는 것을 보였다. 연구진은 3D 시뮬레이션으로 생성한 입체 음향-이미지 데이터셋을 사용하여 최첨단 모델을 미세 조정했고, 제한된 훈련 데이터에도 불구하고 기존 벤치마크를 능가하는 성능을 달성했다. 특히, 인간과 유사하게 좌우 방향의 위치 인식에 편향성을 보였는데, 이는 입체 음향 구조가 인간의 귀 위치를 반영하기 때문으로 추측된다. 이 연구는 감각 입력의 질과 시스템 아키텍처가 다중 모달 표현의 정확도에 미치는 영향을 강조한다.