본 논문은 시각적 인코더의 적대적 공격에 대한 강건성을 향상시키는 새로운 비지도 학습 기반의 미세 조정 프레임워크인 LORE(Lagrangian-Optimized Robust Embeddings)를 제안합니다. 기존의 지도 및 비지도 적대적 미세 조정 방법들이 불안정성과 강건성 및 정상 데이터 정확도 간의 최적화 문제를 겪는다는 점을 지적하며, 제약된 최적화를 활용하여 임베딩 공간의 근접성 제약을 통해 정상 데이터 성능을 유지하면서 강건성을 향상시키는 LORE를 제시합니다. 실험 결과, LORE는 정상 데이터 정확도 저하를 최소화하면서 제로샷 적대적 강건성을 크게 향상시키며, 분포 외 일반화 및 이미지 임베딩의 해석성 향상에도 효과적임을 보여줍니다.
시사점, 한계점
•
시사점:
◦
제약된 최적화를 활용한 새로운 비지도 적대적 미세 조정 프레임워크 LORE를 제시하여, 기존 방법들의 한계점인 불안정성과 강건성 및 정상 데이터 정확도 간의 상충 문제를 해결.
◦
제로샷 적대적 강건성을 크게 향상시키면서 정상 데이터 성능 저하를 최소화하는 효과를 실험적으로 검증.
◦
적대적 미세 조정된 CLIP 이미지 인코더의 분포 외 일반화 및 이미지 임베딩의 해석성 향상 가능성을 제시.