본 논문은 새로운 뷰 음향 합성(NVAS)을 위한 Audio-Visual Gaussian Splatting (AV-GS) 모델을 제안합니다. 기존 NeRF 기반 방법들의 낮은 효율성과 제한적인 환경 특성화 능력(방의 형태, 재질, 청취자와 음원 간의 공간적 관계 등) 문제를 해결하기 위해, 청취자와 음원의 공간적 관계를 고려하여, 오디오 안내 매개변수를 사용하여 국소적으로 초기화된 가우시안 점들을 기반으로 명시적인 점 기반 장면 표현을 학습합니다. 또한, 음파 전달에 대한 각 점의 기여도(예: 텍스처가 없는 벽면은 음파 경로 변경에 영향을 미치므로 더 많은 점이 필요함)를 고려하여 가우시안 점들의 최적 분포를 위해 점 밀도 조정 및 가지치기 전략을 제안합니다. 실제 세계 RWAS 및 시뮬레이션 기반 SoundSpaces 데이터셋에서 기존 방법보다 우수한 성능을 보임을 실험적으로 검증합니다.