본 논문은 다중 모달 언어 모델(MMLM)의 안전성 문제를 해결하기 위해, 기존의 정렬 방식이 어시스턴트 역할에만 초점을 맞추고 사용자 역할과 입력 구조에 대한 취약성을 간과한다는 점을 지적합니다. 이에 따라, 사용자와 어시스턴트의 역할 혼동과 이미지 토큰 위치 변경을 이용하여 유해한 출력을 유도하는 새로운 적대적 공격 방식인 역할-모달리티 공격(RMA)을 제안합니다. RMA는 기존 공격과 달리 쿼리 내용 자체를 변경하지 않고 입력 구조를 조작합니다. 다양한 시각 언어 모델(VLM)을 대상으로 한 실험을 통해 RMA의 효과와 여러 RMA의 조합을 통한 강력한 적대적 프롬프트 생성 가능성을 보여주고, 잔차 스트림에서 부정 거부 방향으로의 투영 증가를 통해 기존 성공적인 공격과의 유사성을 확인합니다. 마지막으로, 다양한 RMA 설정으로 변형된 유해 및 무해 프롬프트를 사용한 적대적 훈련 방식을 제안하여 모델의 강건성을 향상시키고, 공격 성공률(ASR)을 감소시키면서 모델의 일반적인 유용성을 유지하는 방법을 제시합니다.