Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation

Created by
  • Haebom
Category
Empty

저자

Zixin Wang, Dong Gong, Sen Wang, Zi Huang, Yadan Luo

개요

본 논문은 Contrastive Language-Image Pretraining (CLIP) 모델의 제로샷 추론 성능 저하 문제를 해결하기 위해, 효율적인 학습 없이 성능을 향상시키는 방법을 제시합니다. 기존의 Test-time Adaptation (TTA) 방법들은 높은 계산 비용을 요구하는 반면, 본 논문에서는 토큰 축소(Token Condensation, TC) 기법을 활용하여 CLIP 모델의 성능을 향상시키는 Token Condensation as Adaptation (TCA) 방법을 제안합니다. TCA는 단순히 토큰을 버리는 것이 아니라, reservoir-based domain anchor tokens를 도입하여 정보 손실을 최소화하면서 토큰을 축소하고, logits를 수정함으로써 성능 향상을 달성합니다. 실험 결과, TCA는 기존 방법들보다 최대 21.4% 향상된 성능을 보였으며, GFLOPs는 12.2%에서 48.9%까지 감소시켰습니다. CLIP과 SigLIP 계열 모델 모두에서 최소한의 하이퍼파라미터 조정만으로 효과를 보였습니다.

시사점, 한계점

시사점:
효율적이고 학습이 필요 없는 Test-time Adaptation 방법인 TCA를 제시함으로써 CLIP 모델의 제로샷 성능을 향상시켰습니다.
기존 TC 기법의 한계점을 극복하고, 정보 손실을 최소화하면서 토큰 축소를 가능하게 하였습니다.
계산 비용을 크게 줄이면서 성능 향상을 달성하여, 실제 응용에 유용한 방법임을 보여주었습니다.
CLIP과 SigLIP 계열 모델 모두에서 효과적으로 작동함을 확인했습니다.
한계점:
TCA의 성능 향상이 모든 downstream dataset에서 일관되게 나타나는지 추가적인 실험이 필요합니다.
reservoir-based domain anchor tokens의 설계 및 선택에 대한 추가적인 연구가 필요할 수 있습니다.
다른 VLMs에 대한 일반화 성능 평가가 필요합니다.
👍