Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

SafeR-CLIP: Mitigating NSFW Content in Vision-Language Models While Preserving Pre-Trained Knowledge

Created by
  • Haebom
Category
Empty

저자

Adeel Yousaf, Joseph Fioresi, James Beetham, Amrit Singh Bedi, Mubarak Shah

SaFeR-CLIP: 안전성과 성능의 균형을 맞춘 시각-언어 모델 미세 조정

개요

CLIP과 같은 시각-언어 모델의 안전성을 미세 조정을 통해 개선하면 일반화 성능이 저하되는 문제가 발생합니다. 본 논문에서는 이러한 trade-off가 안전하지 않은 개념을 단일 안전 목표로 강제하는 경직된 정렬 전략 때문임을 밝힙니다. 이에 대응하여, representational 변화를 최소화하기 위해 안전하지 않은 개념을 의미적으로 가장 가까운 안전 대안으로 리디렉션하는 근접 인식 접근 방식을 제안합니다. SaFeR-CLIP은 이러한 최소 개입 원칙을 적용하는 미세 조정 프레임워크입니다. SaFeR-CLIP은 안전성과 성능을 성공적으로 조화시켜 이전 방법보다 최대 8.0%의 zero-shot 정확도를 회복하면서 강력한 안전성을 유지합니다. 또한, 분산 이동 하에서 안전성을 테스트하기 위한 1,000개의 고도로 정렬된 쌍으로 구성된 새로운 벤치마크 NSFW-Caps를 제시합니다. 본 연구는 사전 학습된 표현의 기하학을 존중하는 것이 성능 저하 없이 안전성을 달성하는 핵심임을 보여줍니다.

시사점, 한계점

시사점:
CLIP과 같은 시각-언어 모델의 안전성 개선에 성공적인 접근 방식 제시
성능 저하 없이 안전성을 확보하는 방법론 제시 (SaFeR-CLIP)
새로운 안전성 평가 벤치마크(NSFW-Caps) 제공
사전 학습된 모델의 표현 공간을 존중하는 것이 중요함을 보여줌
한계점:
구체적인 SaFeR-CLIP 구현 방식에 대한 상세 정보 부족 (예: 근접성 측정 방식, 안전 대안 선정 기준)
NSFW-Caps 벤치마크의 한계 (예: 다양한 분산 이동 상황 포괄 여부)
SaFeR-CLIP이 다른 시각-언어 모델에 얼마나 일반화될 수 있는지에 대한 추가 연구 필요
👍