본 논문은 대규모 오디오-언어 모델(LALMs)의 음성 기반 인간-기계 상호작용에서 증가하는 적대적 오디오 공격의 위협을 다룹니다. 기존 연구가 모델 특정 적대적 방법에 초점을 맞춘 반면, 실제 응용 프로그램은 오디오 적대적 공격에 대한 더 일반적이고 보편적인 접근 방식을 요구합니다. 본 논문에서는 대화형 시나리오에서 LALMs의 취약성을 탐구하기 위해 네 가지 유형의 오디오 공격을 포함하는 Chat-Audio Attacks (CAA) 벤치마크를 소개합니다. LALMs의 강력성을 평가하기 위해 세 가지 평가 전략(표준 평가, GPT-4o 기반 평가, 인간 평가)을 제안합니다. Gemini-1.5-Pro, GPT-4o 등 6개의 최첨단 LALMs를 세 가지 평가 방법을 사용하여 CAA 벤치마크에서 평가하고, 네 가지 유형의 오디오 공격이 모델 성능에 미치는 영향을 분석하여 GPT-4o가 가장 높은 수준의 복원력을 보임을 보여줍니다. 데이터는 GitHub에서 공개됩니다.