Vision-Language Models (VLMs)의 제로샷 목표 기반 가치 함수로서의 가능성을 탐구하지만, 사전 훈련된 표현의 한계로 인해 일반화와 시간적 추론에 어려움이 있음을 지적합니다. VITA는 테스트 시간 적응을 통해 이러한 능력을 향상시키는 제로샷 가치 함수 학습 방법을 제안합니다. 추론 시 가벼운 적응 모듈을 메타 학습된 자기 지도 손실에 대한 기울기 단계를 통해 업데이트하여 가치 추정을 개선합니다. 궤적을 따라 순차적으로 업데이트함으로써 VITA는 히스토리를 파라미터에 인코딩하여 시간적 추론의 한계를 해결합니다. 지름길 학습을 완화하기 위해 의미론적으로 다양한 궤적 세그먼트를 선택하는 비유사성 기반 샘플링 전략을 제안합니다. 실제 로봇 조작 작업에서 VITA는 단일 훈련 환경에서 다양한 분포 밖의 작업, 환경 및 신체로 일반화하여 최첨단 제로샷 방법을 능가합니다. 또한, VITA의 제로샷 가치 추정치를 오프라인 강화 학습에서 보상 형성에 활용하여 Meta-World 벤치마크에서 시뮬레이션의 퍼지 로직 밀집 보상으로 훈련된 정책보다 뛰어난 다중 작업 정책을 생성할 수 있음을 보여줍니다.