최근 발전된 비전-언어 모델(VLMs)은 텍스트와 이미지와 같은 다중 모드 입력을 사용한 생성 모델링에서 놀라운 발전을 이루었지만, 안전하지 않은 질의에 노출될 때 유해한 콘텐츠를 생성하는 취약성으로 인해 심각한 안전 문제가 제기됩니다. 기존의 정렬 전략은 주로 엄선된 데이터셋을 사용한 지도 학습 기반 안전 미세 조정에 의존하지만, 이 논문에서는 지도 학습 기반 미세 조정이 본질적인 피해 완화를 촉진하기보다는 피상적인 텍스트 패턴과 안전 응답 간의 허위 상관관계를 의도치 않게 강화하는 "안전 신기루"라는 근본적인 한계를 밝힙니다. 이러한 허위 상관관계는 미세 조정된 VLMs를 단일 단어 수정 기반 공격에 취약하게 만들며, 텍스트 질의에서 단일 단어를 허위 상관관계 유발 대안으로 대체하면 안전 장치를 효과적으로 우회할 수 있음을 보여줍니다. 또한, 이러한 상관관계는 과도한 신중함으로 이어져 미세 조정된 VLMs가 필요 없이 무해한 질의를 거부하게 만듭니다. 이 문제를 해결하기 위해, 이 논문에서는 편향된 특징-레이블 매핑을 피하고 일반적인 기능을 유지하면서 VLMs에서 유해한 지식을 직접 제거하기 때문에 지도 학습 기반 안전 미세 조정에 대한 강력한 대안으로 기계 언러닝(MU)을 제시합니다. 안전 벤치마크에 대한 광범위한 평가 결과, 단일 단어 공격 하에서 MU 기반 정렬은 공격 성공률을 최대 60.17%까지 줄이고 불필요한 거부를 84.20% 이상 줄이는 것으로 나타났습니다. 코드는 https://github.com/OPTML-Group/VLM-Safety-MU 에서 확인할 수 있습니다.