Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-tuning

Created by
  • Haebom
Category
Empty

저자

Yiwei Chen, Yuguang Yao, Yihua Zhang, Bingquan Shen, Gaowen Liu, Sijia Liu

개요

최근 발전된 비전-언어 모델(VLMs)은 텍스트와 이미지와 같은 다중 모드 입력을 사용한 생성 모델링에서 놀라운 발전을 이루었지만, 안전하지 않은 질의에 노출될 때 유해한 콘텐츠를 생성하는 취약성으로 인해 심각한 안전 문제가 제기됩니다. 기존의 정렬 전략은 주로 엄선된 데이터셋을 사용한 지도 학습 기반 안전 미세 조정에 의존하지만, 이 논문에서는 지도 학습 기반 미세 조정이 본질적인 피해 완화를 촉진하기보다는 피상적인 텍스트 패턴과 안전 응답 간의 허위 상관관계를 의도치 않게 강화하는 "안전 신기루"라는 근본적인 한계를 밝힙니다. 이러한 허위 상관관계는 미세 조정된 VLMs를 단일 단어 수정 기반 공격에 취약하게 만들며, 텍스트 질의에서 단일 단어를 허위 상관관계 유발 대안으로 대체하면 안전 장치를 효과적으로 우회할 수 있음을 보여줍니다. 또한, 이러한 상관관계는 과도한 신중함으로 이어져 미세 조정된 VLMs가 필요 없이 무해한 질의를 거부하게 만듭니다. 이 문제를 해결하기 위해, 이 논문에서는 편향된 특징-레이블 매핑을 피하고 일반적인 기능을 유지하면서 VLMs에서 유해한 지식을 직접 제거하기 때문에 지도 학습 기반 안전 미세 조정에 대한 강력한 대안으로 기계 언러닝(MU)을 제시합니다. 안전 벤치마크에 대한 광범위한 평가 결과, 단일 단어 공격 하에서 MU 기반 정렬은 공격 성공률을 최대 60.17%까지 줄이고 불필요한 거부를 84.20% 이상 줄이는 것으로 나타났습니다. 코드는 https://github.com/OPTML-Group/VLM-Safety-MU 에서 확인할 수 있습니다.

시사점, 한계점

시사점: 기계 언러닝(MU)을 활용하여 비전-언어 모델(VLM)의 안전성을 향상시킬 수 있는 새로운 방법을 제시합니다. 단일 단어 수정 기반 공격에 대한 취약성을 감소시키고 과도한 거부를 줄이는 효과를 보였습니다.
한계점: MU 기법의 효과는 사용된 데이터셋과 모델에 따라 달라질 수 있습니다. 모든 유형의 유해 콘텐츠 생성을 완벽하게 방지할 수 있다는 보장은 없습니다. 더욱 다양하고 복잡한 공격에 대한 안전성을 추가적으로 검증해야 합니다.
👍