Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Test-Time Spectrum-Aware Latent Steering for Zero-Shot Generalization in Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Konstantinos M. Dafnis, Dimitris N. Metaxas

개요

Vision-Language Model (VLM)은 제로샷 추론에 뛰어나지만, 테스트 시점의 도메인 변화에 취약하다. 본 논문은 VLM을 단일 레이블이 없는 이미지에 적응시키기 위한 가벼운 적응 프레임워크인 Spectrum-Aware Test-Time Steering (STS)를 제안한다. STS는 텍스트 임베딩에서 스펙트럼 서브스페이스를 추출하여 주요 의미론적 방향을 정의하고, 증강된 뷰 간의 엔트로피를 최소화하기 위해 샘플별 시프트 매개변수를 적응시켜 잠재 표현을 스펙트럼 인식 방식으로 조작한다. STS는 고정된 인코더를 통해 역전파하거나 수정하지 않고 잠재 공간에서 추론 시점에만 작동한다. 실험 결과, STS는 기존의 테스트 시점 적응 방법보다 성능이 뛰어나거나 유사하며, 소수의 추가 매개변수만 도입하고, 기존 프롬프트 튜닝보다 최대 8배 빠른 추론 속도와 12배 작은 메모리 사용량을 달성했다.

시사점, 한계점

시사점:
가벼운 테스트 시점 적응 프레임워크 제시 (STS)
기존 방법 대비 향상된 성능, 빠른 추론 속도, 작은 메모리 사용량
고정된 VLM 인코더를 수정하지 않고 잠재 공간에서 작동
한계점:
구체적인 한계점은 논문에서 명시되지 않음 (추후 연구 필요)
👍