본 논문은 오픈 월드 환경에서의 행동 기반 의사결정에 초점을 맞추고, 대규모 웹 데이터셋으로 사전 훈련된 시각 언어 행동(VLA) 모델의 성능 향상을 위한 새로운 접근 방식인 '시각 언어 사후 훈련으로부터 행동(Act from Visual Language Post-Training)'을 제시합니다. 기존 연구들이 주로 행동 사후 훈련에 집중한 것과 달리, 본 연구는 시각 및 언어적 지도를 활용한 자기 지도 방식의 사후 훈련을 통해 시각 언어 모델(VLM) 자체의 기본 성능을 향상시킵니다. 이를 통해 오픈 월드 환경에서의 세계 지식, 시각 인식 및 공간적 기반 강화를 이룹니다. Minecraft 환경에서 1,000개 이상의 다양한 원자적 작업(제작, 제련, 요리, 채광, 살해 등)을 수행하는 최초의 VLA 모델을 제시하며, 비궤적 작업에 대한 사후 훈련을 통해 기존 최고 성능 에이전트 대비 40%의 성능 향상을 달성합니다. 또한, 기존 모방 학습 기반 정책을 능가하는 최첨단 성능을 달성하며, 코드, 모델 및 데이터셋을 공개하여 추가 연구를 장려합니다.