CLIP과 같은 시각-언어 모델의 안전성을 미세 조정을 통해 개선하면 일반화 성능이 저하되는 문제가 발생합니다. 본 논문에서는 이러한 trade-off가 안전하지 않은 개념을 단일 안전 목표로 강제하는 경직된 정렬 전략 때문임을 밝힙니다. 이에 대응하여, representational 변화를 최소화하기 위해 안전하지 않은 개념을 의미적으로 가장 가까운 안전 대안으로 리디렉션하는 근접 인식 접근 방식을 제안합니다. SaFeR-CLIP은 이러한 최소 개입 원칙을 적용하는 미세 조정 프레임워크입니다. SaFeR-CLIP은 안전성과 성능을 성공적으로 조화시켜 이전 방법보다 최대 8.0%의 zero-shot 정확도를 회복하면서 강력한 안전성을 유지합니다. 또한, 분산 이동 하에서 안전성을 테스트하기 위한 1,000개의 고도로 정렬된 쌍으로 구성된 새로운 벤치마크 NSFW-Caps를 제시합니다. 본 연구는 사전 학습된 표현의 기하학을 존중하는 것이 성능 저하 없이 안전성을 달성하는 핵심임을 보여줍니다.