본 논문은 오픈월드 환경에서의 행동 기반 의사결정에 초점을 맞추고 있습니다. 대규모 웹 데이터셋으로 사전 훈련된 시각 언어 행동(VLA) 모델이 의사결정 과제에서 유망함을 보여주었지만, 기존 연구는 주로 행동 사후 훈련에 집중하여 기본 모델 자체의 개선은 소홀히 했습니다. 이에 본 논문에서는 시각 및 언어적 지침을 통해 시각 언어 모델(VLMs)을 자기 지도 방식으로 개선하는 새로운 접근 방식인 "시각 언어 사후 훈련으로부터 행동(Act from Visual Language Post-Training)"을 제시합니다. 이를 통해 오픈월드 환경에서 세계 지식, 시각적 인식 및 공간적 기반에 대한 모델의 기능을 향상시킵니다. 제시된 사후 훈련 방법을 통해 마인크래프트에서 제작, 제련, 요리, 채굴, 살해 등 1,000개가 넘는 다양한 원자적 과제를 수행할 수 있는 최초의 VLA 모델을 얻었습니다. 실험 결과 비궤적 과제에 대한 사후 훈련은 다양한 원자적 과제에서 최고의 에이전트 기준선보다 40% 향상된 성능을 보여주었습니다. 또한, 본 연구의 접근 방식은 마인크래프트에서 기존의 모방 학습 기반 정책을 능가하여 최첨단 성능을 달성했습니다. 코드, 모델 및 데이터셋을 공개하여 추가 연구를 장려하고 있습니다.