본 논문은 CLIP과 같은 제로샷 모델의 강건한 표현 학습이 하류 작업에 미세 조정될 때 쉽게 저하되는 문제를 해결하기 위해 StarFT(Spurious Textual Alignment Regularization) 프레임워크를 제안합니다. 기존 연구들이 도메인 이동에 초점을 맞춘 반면, 본 논문은 제한된 데이터로 미세 조정된 모델이 배경이나 질감과 같은 인간에게는 무의미한 특징을 학습하는 경향에 주목합니다. StarFT는 잠재적으로 혼란을 야기하는 특징을 강조하는 대체 텍스트 설명을 생성하여, 무의미한 특징 학습을 방지하는 정규화를 통해 제로샷 모델의 강건성을 향상시킵니다. 실험 결과, StarFT는 특히 Waterbirds 그룹 이동 시나리오에서 다른 강건한 미세 조정 기준 모델보다 성능이 향상됨을 보여줍니다.