Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Spoken question answering for visual queries

Created by
  • Haebom

저자

Nimrod Shabtay, Zvi Kons, Avihu Dekel, Hagai Aronowitz, Ron Hoory, Assaf Arbelle

개요

본 논문은 음성과 이미지를 통한 사용자 상호작용을 가능하게 하는 시스템을 구축하는 것을 목표로, 텍스트, 음성, 이미지 모달리티를 융합하여 spoken visual question answering (SVQA) 문제를 해결하는 다중 모달 모델을 제안합니다. 현재 세 가지 모달리티 모두를 포함하는 SVQA 데이터셋이 부재하다는 점을 해결하기 위해, 두 개의 제로샷 TTS 모델을 이용하여 VQA 데이터셋을 합성했습니다. 합성된 음성 데이터로만 학습된 모델이 텍스트 기반 QA로 학습된 상위 모델의 성능에 근접함을 보였으며, TTS 모델 선택이 정확도에 미치는 영향은 미미함을 확인했습니다.

시사점, 한계점

시사점:
제로샷 TTS 모델을 이용한 SVQA 데이터셋 합성 방법 제시.
합성 음성 데이터를 사용한 SVQA 모델 학습의 효용성 검증.
TTS 모델 선택이 성능에 미치는 영향이 미미함을 확인.
음성 및 이미지 기반 사용자 상호작용 시스템 구축 가능성 제시.
한계점:
합성 데이터를 사용했기에 실제 음성 데이터를 사용한 경우와의 성능 차이에 대한 추가 연구 필요.
사용된 TTS 모델의 한계가 모델 성능에 영향을 미칠 가능성.
다양한 유형의 음성 및 이미지 데이터에 대한 일반화 성능 검증 필요.
실제 사용자 상호작용 환경에서의 모델 성능 평가 필요.
👍