본 논문은 CLIP과 같은 대비 사전 훈련된 시각-언어 모델을 in-distribution (ID) 데이터에 미세 조정하면서 out-of-distribution (OOD) 및 zero-shot 설정에서의 일반화 능력을 저하시키지 않는 방법을 제시한다. 기존의 robust fine-tuning 방법들이 임베딩의 기하학적 구조를 왜곡하여 OOD 및 zero-shot 성능을 제한하는 문제를 해결하기 위해, 본 논문은 기하학적 구조를 보존하는 Difference Vector Equalization (DiVE)를 제안한다. DiVE는 사전 훈련 모델과 미세 조정 모델에서 추출한 임베딩 간의 차이 벡터를 제약하여 기하학적 구조를 보존하며, Average Vector Loss (AVL) 및 Pairwise Vector Loss (PVL)을 사용하여 전체적 및 국소적으로 구조를 유지한다. 실험 결과, DiVE는 ID, OOD, zero-shot 성능에서 우수한 결과를 달성했다.
시사점, 한계점
•
시사점:
◦
vision-language 모델의 robust fine-tuning 시, 기하학적 구조 보존의 중요성을 강조.