Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Evaluating Hallucinations in Multimodal LLMs with Spoken Queries under Diverse Acoustic Conditions

Created by
  • Haebom

저자

Hansol Park, Hoseong Ahn, Junwon Moon, Yejin Lee, Kyuhong Shim

개요

음성 쿼리가 멀티모달 대규모 언어 모델의 환각에 미치는 영향을 연구합니다. RePOPE 벤치마크를 음성 데이터를 포함하도록 확장한 RePOPE-Spk를 제시하여, 다양한 음향 환경에서 음성 입력을 통해 모델의 환각을 평가합니다. 실험 결과, 음성 쿼리 환경에서 환각이 증가하며, 입력 순서와 쿼리 길이도 견고성에 영향을 미침을 확인했습니다. 또한, 다중 샷 프롬프팅 및 사고의 연쇄 추론과 같은 전략이 부분적인 완화 효과를 보이지만, 충분하지 않음을 밝혔습니다.

시사점, 한계점

시사점:
음성 쿼리는 시각-언어 모델의 환각을 증가시킵니다.
음성 쿼리 환경에서의 환각은 잡음 환경에서 더욱 악화됩니다.
입력 순서와 쿼리 길이가 견고성에 영향을 미칩니다.
다중 샷 프롬프팅 및 사고의 연쇄 추론은 부분적인 완화 효과만 제공합니다.
신뢰할 수 있는 음성 인터페이스 시스템 구축을 위한 새로운 연구 방향을 제시합니다.
한계점:
다양한 음성 환경과 모델에 대한 추가적인 실험이 필요합니다.
환각 완화를 위한 더욱 효과적인 전략 연구가 필요합니다.
본 연구는 특정 벤치마크와 모델에 국한될 수 있습니다.
👍