Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Christos Ziakas, Alessandra Russo

개요

Vision-Language Models (VLMs)의 제로샷 목표 기반 가치 함수로서의 가능성을 탐구하지만, 사전 훈련된 표현의 한계로 인해 일반화와 시간적 추론에 어려움이 있음을 지적합니다. VITA는 테스트 시간 적응을 통해 이러한 능력을 향상시키는 제로샷 가치 함수 학습 방법을 제안합니다. 추론 시 가벼운 적응 모듈을 메타 학습된 자기 지도 손실에 대한 기울기 단계를 통해 업데이트하여 가치 추정을 개선합니다. 궤적을 따라 순차적으로 업데이트함으로써 VITA는 히스토리를 파라미터에 인코딩하여 시간적 추론의 한계를 해결합니다. 지름길 학습을 완화하기 위해 의미론적으로 다양한 궤적 세그먼트를 선택하는 비유사성 기반 샘플링 전략을 제안합니다. 실제 로봇 조작 작업에서 VITA는 단일 훈련 환경에서 다양한 분포 밖의 작업, 환경 및 신체로 일반화하여 최첨단 제로샷 방법을 능가합니다. 또한, VITA의 제로샷 가치 추정치를 오프라인 강화 학습에서 보상 형성에 활용하여 Meta-World 벤치마크에서 시뮬레이션의 퍼지 로직 밀집 보상으로 훈련된 정책보다 뛰어난 다중 작업 정책을 생성할 수 있음을 보여줍니다.

시사점, 한계점

시사점:
제로샷 학습에서 VLM의 활용 가능성을 확장하여 일반화 및 시간적 추론 능력을 향상시킴.
테스트 시간 적응과 자기 지도 학습을 결합하여 성능을 개선.
비유사성 기반 샘플링을 통해 지름길 학습 문제를 완화.
실제 로봇 조작 작업에서 state-of-the-art 성능을 달성.
오프라인 강화 학습에서 보상 형성에 활용하여 성능 향상.
한계점:
VITA의 계산 복잡성 및 적응 모듈의 경량화 정도에 대한 추가적인 연구 필요.
다양한 환경 및 작업에 대한 VITA의 일반화 성능 검증 필요.
다른 VLMs 및 학습 방법과의 비교 분석 추가 필요.
👍