본 논문은 음성과 이미지를 통한 사용자 상호작용을 가능하게 하는 시스템을 구축하는 것을 목표로, 텍스트, 음성, 이미지 모달리티를 융합하여 spoken visual question answering (SVQA) 문제를 해결하는 다중 모달 모델을 제안합니다. 현재 세 가지 모달리티 모두를 포함하는 SVQA 데이터셋이 부재하다는 점을 해결하기 위해, 두 개의 제로샷 TTS 모델을 이용하여 VQA 데이터셋을 합성했습니다. 합성된 음성 데이터로만 학습된 모델이 텍스트 기반 QA로 학습된 상위 모델의 성능에 근접함을 보였으며, TTS 모델 선택이 정확도에 미치는 영향은 미미함을 확인했습니다.