Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

Created by
  • Haebom
Category
Empty

저자

Muyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang

개요

본 논문은 오픈월드 환경에서의 행동 기반 의사결정에 초점을 맞추고 있습니다. 대규모 웹 데이터셋으로 사전 훈련된 시각 언어 행동(VLA) 모델이 의사결정 과제에서 유망함을 보여주었지만, 기존 연구는 주로 행동 사후 훈련에 집중하여 기본 모델 자체의 개선은 소홀히 했습니다. 이에 본 논문에서는 시각 및 언어적 지침을 통해 시각 언어 모델(VLMs)을 자기 지도 방식으로 개선하는 새로운 접근 방식인 "시각 언어 사후 훈련으로부터 행동(Act from Visual Language Post-Training)"을 제시합니다. 이를 통해 오픈월드 환경에서 세계 지식, 시각적 인식 및 공간적 기반에 대한 모델의 기능을 향상시킵니다. 제시된 사후 훈련 방법을 통해 마인크래프트에서 제작, 제련, 요리, 채굴, 살해 등 1,000개가 넘는 다양한 원자적 과제를 수행할 수 있는 최초의 VLA 모델을 얻었습니다. 실험 결과 비궤적 과제에 대한 사후 훈련은 다양한 원자적 과제에서 최고의 에이전트 기준선보다 40% 향상된 성능을 보여주었습니다. 또한, 본 연구의 접근 방식은 마인크래프트에서 기존의 모방 학습 기반 정책을 능가하여 최첨단 성능을 달성했습니다. 코드, 모델 및 데이터셋을 공개하여 추가 연구를 장려하고 있습니다.

시사점, 한계점

시사점:
오픈월드 환경에서의 행동 기반 의사결정을 위한 새로운 VLA 모델 사후 훈련 방법 제시.
자기 지도 방식의 사후 훈련을 통해 VLMs의 세계 지식, 시각적 인식 및 공간적 기반 향상.
마인크래프트에서 1,000개 이상의 원자적 과제 수행 가능한 VLA 모델 개발 및 최첨단 성능 달성.
코드, 모델 및 데이터셋 공개를 통한 연구 활성화.
한계점:
마인크래프트 환경에 특화된 모델로, 다른 환경으로의 일반화 가능성에 대한 추가 연구 필요.
사후 훈련 데이터의 규모 및 질에 따라 성능이 영향을 받을 수 있음.
복잡한 장기적인 과제에 대한 성능 평가가 추가적으로 필요.
👍