본 논문은 동적인 환경에서의 복잡하고 장기적인 계획을 포함하는 시각-언어 작업 계획에서 기존 방법의 한계를 다룹니다. 기존 방법들은 단기 계획에는 뛰어나지만 장기 계획에서는 고품질 추론 과정을 생성하는 데 어려움을 겪습니다. 이를 해결하기 위해, 구조적 선호도 최적화(SPO)를 제안합니다. SPO는 구조적 선호도 평가와 최적화된 훈련 전략을 통해 장기 계획에서의 추론 및 행동 선택을 향상시킵니다. 구체적으로, SPO는 작업 관련성, 시각적 근거, 과거 일관성에 기반하여 추론 과정을 체계적으로 평가하는 선호도 기반 점수 및 최적화와, 모델이 단순한 작업에서 복잡한 작업으로 점진적으로 적응하여 장기 시나리오에서 일반화 능력을 향상시키고 추론의 강건성을 높이는 커리큘럼 기반 훈련을 도입합니다. 또한, VirtualHome과 Habitat 2.0에 걸쳐 1,509개의 작업(초단기, 단기, 중기, 장기 작업으로 분류)을 포함하는 종합적인 벤치마크인 ExtendaBench를 소개합니다. 실험 결과, SPO는 장기 작업에서 기존 방법보다 우수한 추론 품질과 최종 의사 결정 정확도를 달성하여 선호도 기반 최적화의 효과를 보여줍니다. VirtualHome에서는 GCR +5.98%, SR +4.68%, Habitat에서는 GCR +3.30%, SR +2.11% 향상을 달성했습니다.