본 논문은 기존의 Vision-Language Model (VLM)이 raw visual observation을 language-conditioned action sequence로 변환하는 능력이 부족하다는 점을 지적하며, 이를 해결하기 위해 새로운 강화학습 알고리즘인 Vision-Language Decoupled Actor-Critic (VL-DAC)을 제안합니다. VL-DAC은 action token에는 PPO 업데이트를 적용하고, value는 environment-step level에서만 학습하는 방식으로, 기존 RL 방법의 불안정성과 과도한 hyperparameter tuning 문제를 해결합니다. 저렴한 시뮬레이터(MiniWorld, Gym-Cards, ALFWorld, WebShop)에서 VL-DAC로 VLM을 학습시킨 결과, BALROG, VSI-Bench, VisualWebBench 등 다양한 실제 이미지 기반 벤치마크에서 상당한 성능 향상을 보였으며, 일반적인 이미지 이해 능력 저하 없이 generalization이 가능함을 보여줍니다. 이는 저렴한 합성 환경에서 학습된 VLM이 실제 세계의 다양한 작업에서도 효과적으로 사용될 수 있음을 시사합니다.