Vision-Language Model (VLM)의 실제 응용 프로그램 배포가 증가함에 따라, 이전에 간과되었던 안전 위험이 점점 더 분명해지고 있다. 특히, 무해해 보이는 멀티모달 입력이 결합되어 유해한 의도를 드러내어 안전하지 않은 모델 출력을 초래할 수 있다. SIA (Safety via Intent Awareness)는 이러한 잠재적 위험을 해결하기 위해 제안된 훈련이 필요 없는 의도 인식 안전 프레임워크로, 멀티모달 입력에서 유해한 의도를 사전에 감지하고 이를 사용하여 안전한 응답 생성을 유도한다. SIA는 시각적 추상화 (캡셔닝), 소수 샷 사고 연쇄 (CoT) 프롬프팅을 통한 의도 추론, 의도 기반 응답 생성의 세 단계를 따른다. 이미지-텍스트 쌍에서 추론된 암묵적인 의도에 동적으로 적응함으로써, SIA는 광범위한 재훈련 없이 유해한 출력을 완화한다. SIUO, MM-SafetyBench, HoliSafe와 같은 안전 벤치마크에 대한 광범위한 실험 결과, SIA는 안전성을 일관되게 향상시키고 기존의 훈련이 필요 없는 방법보다 우수한 성능을 보였다.