Sat2Sound는 지구상 어떤 위치의 소리 분포를 예측하기 위해 설계된, 사운드스케이프 매핑을 위한 다중 모달 표현 학습 프레임워크입니다. 기존 방법들은 위성 이미지와 지리 태그가 지정된 오디오 샘플을 사용하지만, 특정 위치의 다양한 소리 원천을 포착하지 못하는 경우가 많습니다. 이러한 한계를 해결하기 위해, Vision-Language Model (VLM)을 활용하여 위성 이미지에 묘사된 위치에 대한 의미가 풍부한 사운드스케이프 설명을 생성함으로써 기존 데이터셋을 향상시킵니다. 오디오, 오디오 캡션, 위성 이미지, 위성 이미지 캡션에 걸쳐 대조 학습을 통합합니다. 모달 간에 공유되는 고정된 사운드스케이프 개념 집합이 있다고 가정하고, 사운드스케이프 개념의 공유 코드북을 학습하고 각 샘플을 이러한 개념의 가중 평균으로 표현합니다. GeoSound와 SoundingEarth 두 데이터셋에서 위성 이미지와 오디오 간의 크로스 모달 검색에서 최첨단 성능을 달성합니다. 또한, Sat2Sound의 상세한 사운드스케이프 캡션 검색 기능을 기반으로, 몰입형 음향 경험을 가능하게 하는 새로운 애플리케이션인 위치 기반 사운드스케이프 합성을 소개합니다. 코드와 모델은 공개적으로 제공될 예정입니다.