본 논문은 물리 법칙에 기반한 지각 모델을 개발하기 위해, 3D 기하학 -> 물리적 속성 -> 모달 파라미터 -> 음향 신호의 인과 관계를 명시적으로 연결하는 대규모 기하-음향 정렬 데이터셋인 VibraVerse를 소개한다. CLASP라는 대비 학습 프레임워크를 사용하여 물리적으로 일관된 멀티모달 정렬을 수행하며, VibraVerse를 기반으로 기하학-음향 예측, 음향 기반 형상 복원, 그리고 멀티모달 표현 학습을 위한 벤치마크 태스크를 정의한다. 실험 결과는 VibraVerse 기반 모델이 더 높은 정확도, 해석 가능성, 그리고 일반화 능력을 보임을 보여준다.