본 논문은 동적인 환경에서 장기간 계획이 필요한 복잡한 시각-언어 작업 계획에서 기존 방법의 한계를 해결하기 위해 구조적 선호도 최적화(SPO) 방법을 제안합니다. SPO는 작업 관련성, 시각적 근거, 과거 일관성을 기반으로 추론 과정을 체계적으로 평가하는 선호도 기반 점수 및 최적화와 단순한 작업부터 복잡한 작업까지 모델을 점진적으로 적응시키는 커리큘럼 기반 학습을 통해 장기간 작업 계획에서 추론 및 행동 선택을 향상시킵니다. 또한, VirtualHome과 Habitat 2.0에 걸쳐 1,509개의 작업으로 구성된 종합적인 벤치마크인 ExtendaBench를 소개하여 장기간 시각-언어 작업 계획 연구를 발전시킵니다. 실험 결과, SPO는 장기간 작업에서 기존 방법보다 우수한 추론 품질과 최종 의사 결정 정확도를 달성함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
장기간 시각-언어 작업 계획에서 추론 및 행동 선택을 향상시키는 효과적인 방법인 구조적 선호도 최적화(SPO)를 제시.
◦
선호도 기반 점수 및 최적화, 커리큘럼 기반 학습을 통해 장기간 작업 계획의 성능을 향상시킬 수 있음을 실험적으로 증명.
◦
시각-언어 장기간 작업 계획을 위한 종합적인 벤치마크인 ExtendaBench를 제공.
◦
VirtualHome과 Habitat 2.0에서 기존 최고 성능 기준 모델보다 성능 향상을 보임 (VirtualHome: GCR +5.98%, SR +4.68%; Habitat: GCR +3.30%, SR +2.11%).