Vision-Language Models(VLM)のゼロショット目標ベースの価値関数としての可能性を活用しますが、事前訓練された固定表現の限界を克服するために、テスト時間適応を通じて一般化と時間的推論能力を向上させるVITAを紹介します。 VITAは、メタ学習された磁気マップ損失の勾配ステップを介して軽量適応モジュールを推論する際に更新することで、価値推定を改善します。軌道に沿って逐次更新して時間的推論の限界を解き, 近道学習を緩和するために意味論的に様々な軌跡セグメントを選択する差異ベースのサンプリング戦略を提案した。実際のロボット操作タスクでは、VITAは単一のトレーニング環境でさまざまな外部分布タスク、環境、および実装を一般化し、autoregressive VLMを使用する最先端のゼロショット方法よりも優れたパフォーマンスを発揮します。さらに、VITAのゼロショット値の推定値は、オフライン強化学習で報酬を形成するために活用され、Meta-Worldベンチマークでシミュレーションのファジィ論理密集補償によって訓練されたポリシーのパフォーマンスを上回るマルチタスクポリシーを達成できることを示しています。