본 논문은 다중 모달 모델(텍스트, 이미지, 비디오, 오디오)의 취약성을 다루는 최초의 종합적인 조사 연구입니다. 단일 모델이 여러 모달리티를 이해하도록 훈련되는 다중 모달 모델의 등장은 AI 발전에 큰 도약이지만, 각 모달리티의 적대적 공격에 대한 취약성을 모두 상속받아 위협이 증폭됩니다. 본 논문은 실무자 중심 관점에서 네 가지 모달리티에 대한 적대적 공격 유형을 조사하여 실제 응용 프로그램에서 오픈소스 모델을 채택, 미세 조정 및 배포하는 머신러닝 실무자들이 위협 환경을 파악하고 예방 조치를 취할 수 있도록 지원합니다.