본 논문은 동적인 환경에서의 복잡하고 장기적인 계획을 수행하는 시각-언어 작업 계획을 위한 새로운 방법인 구조적 선호도 최적화(SPO)를 제안합니다. 기존 방법들이 단기 계획에서는 우수하지만 장기 계획에서는 어려움을 겪는다는 점을 해결하기 위해, SPO는 작업 관련성, 시각적 근거, 과거 일관성을 기반으로 추론 과정을 체계적으로 평가하고 최적화하는 선호도 기반 점수 매기기 및 최적화와, 단순한 작업에서 복잡한 작업으로 점진적으로 모델을 적응시키는 커리큘럼 기반 학습을 도입합니다. 또한, VirtualHome과 Habitat 2.0을 기반으로 1,509개의 작업으로 구성된 종합적인 벤치마크인 ExtendaBench를 소개합니다. 실험 결과, SPO는 장기 계획 작업에서 기존 방법들을 능가하며, VirtualHome과 Habitat에서 각각 +5.98% GCR, +4.68% SR 및 +3.30% GCR, +2.11% SR 향상을 달성하여 선호도 기반 최적화의 효과를 보여줍니다.