본 논문은 시각적 관찰과 자연어 목표를 기반으로 일관된 다단계 의사결정을 내리는 구현 계획(embodied planning)에 대해 다룹니다. 기존의 비전-언어 모델(VLMs)이 정적인 인지 작업에서는 뛰어나지만, 상호작용 환경에서의 계획에 필요한 시간적 추론, 공간적 이해, 상식적 근거(commonsense grounding)에는 어려움을 겪는다는 점을 지적합니다. 이를 해결하기 위해 R1 스타일의 추론 강화를 구현 계획에 도입하는 강화 학습 기반 미세조정 프레임워크를 제시합니다. 강력한 폐쇄형 모델로부터 고품질 데이터셋을 추출하여 지도 학습 미세조정(SFT)을 수행하여 모델에 구조화된 의사결정 사전 지식을 부여하고, 다단계 행동 품질에 맞춘 규칙 기반 보상 함수를 설계하여 Generalized Reinforced Preference Optimization (GRPO)를 통해 정책을 최적화합니다. Embench 벤치마크를 사용하여 평가한 결과, GPT-4o-mini 및 70B+ 이상의 오픈소스 기준 모델보다 성능이 뛰어나며, 보이지 않는 환경에 대한 강력한 일반화 능력을 보여줍니다. 이는 강화 학습 기반 추론이 장기 계획 구현 AI 발전에 기여할 가능성을 보여줍니다.