본 논문은 Contrastive Language-Image Pretraining (CLIP) 모델의 제로샷 추론 성능 저하 문제를 해결하기 위해, 효율적인 학습 없이 성능을 향상시키는 방법을 제시합니다. 기존의 Test-time Adaptation (TTA) 방법들은 높은 계산 비용을 요구하는 반면, 본 논문에서는 토큰 축소(Token Condensation, TC) 기법을 활용하여 CLIP 모델의 성능을 향상시키는 Token Condensation as Adaptation (TCA) 방법을 제안합니다. TCA는 단순히 토큰을 버리는 것이 아니라, reservoir-based domain anchor tokens를 도입하여 정보 손실을 최소화하면서 토큰을 축소하고, logits를 수정함으로써 성능 향상을 달성합니다. 실험 결과, TCA는 기존 방법들보다 최대 21.4% 향상된 성능을 보였으며, GFLOPs는 12.2%에서 48.9%까지 감소시켰습니다. CLIP과 SigLIP 계열 모델 모두에서 최소한의 하이퍼파라미터 조정만으로 효과를 보였습니다.