CLIP과 같은 대형 비전-언어 모델은 이미지와 텍스트를 공유 임베딩 공간에 정렬하여 강력한 제로샷 분류 성능을 보여줍니다. 그러나 이러한 모델은 종종 스퓨리어스(spurious) 바이어스를 갖는데, 이는 부적절한 특징에 의존하는 경향입니다. 예를 들어, 배경과 같은 관련 없는 특징에 기반하여 객체를 추론할 수 있습니다. 본 논문에서는 제로샷 분류에서 다중 모드 스퓨리어스 바이어스의 영향을 이론적으로 분석하고, 가이드된 프롬프트 선택을 통해 스퓨리어스 바이어스를 완화하는 간단하고 효과적인 방법인 SAGE (Spuriousness-Aware Guided Exploration)를 제안합니다. SAGE는 훈련, 미세 조정 또는 외부 주석이 필요하지 않습니다. 광범위한 실험을 통해 SAGE가 제로샷 성능과 일반화를 일관적으로 개선하며, 기존 제로샷 방식보다 우수함을 입증합니다.