Sign In

Structured Preference Optimization for Vision-Language Long-Horizon Task Planning

Created by
  • Haebom
Category
Empty

저자

Xiwen Liang, Min Lin, Weiqi Ruan, Rongtao Xu, Yuecheng Liu, Jiaqi Chen, Bingqian Lin, Yuzheng Zhuang, Xiaodan Liang

개요

본 논문은 동적인 환경에서의 복잡하고 장기적인 계획을 포함하는 시각-언어 작업 계획에서 기존 방법의 한계를 다룹니다. 기존 방법들은 단기 계획에는 뛰어나지만 장기 계획에서는 고품질 추론 과정을 생성하는 데 어려움을 겪습니다. 이를 해결하기 위해, 구조적 선호도 최적화(SPO)를 제안합니다. SPO는 구조적 선호도 평가와 최적화된 훈련 전략을 통해 장기 계획에서의 추론 및 행동 선택을 향상시킵니다. 구체적으로, SPO는 작업 관련성, 시각적 근거, 과거 일관성에 기반하여 추론 과정을 체계적으로 평가하는 선호도 기반 점수 및 최적화와, 모델이 단순한 작업에서 복잡한 작업으로 점진적으로 적응하여 장기 시나리오에서 일반화 능력을 향상시키고 추론의 강건성을 높이는 커리큘럼 기반 훈련을 도입합니다. 또한, VirtualHome과 Habitat 2.0에 걸쳐 1,509개의 작업(초단기, 단기, 중기, 장기 작업으로 분류)을 포함하는 종합적인 벤치마크인 ExtendaBench를 소개합니다. 실험 결과, SPO는 장기 작업에서 기존 방법보다 우수한 추론 품질과 최종 의사 결정 정확도를 달성하여 선호도 기반 최적화의 효과를 보여줍니다. VirtualHome에서는 GCR +5.98%, SR +4.68%, Habitat에서는 GCR +3.30%, SR +2.11% 향상을 달성했습니다.

시사점, 한계점

시사점:
장기 시각-언어 작업 계획에서의 추론 및 행동 선택 향상을 위한 효과적인 방법인 구조적 선호도 최적화(SPO) 제안.
선호도 기반 점수 및 최적화, 커리큘럼 기반 훈련을 통한 장기 계획 성능 향상.
시각-언어 장기 작업 계획 연구를 위한 종합적인 벤치마크인 ExtendaBench 제공.
기존 방법 대비 VirtualHome 및 Habitat에서의 성능 향상을 통한 SPO의 효과 입증.
한계점:
ExtendaBench의 범위가 VirtualHome과 Habitat 2.0으로 제한됨. 다양한 환경으로의 확장 필요성.
SPO의 성능 향상이 특정 벤치마크에 국한될 가능성. 다른 유형의 작업 및 환경에서의 일반화 성능 검증 필요.
선호도 평가의 주관성에 대한 고려 및 개선 필요. 더욱 객관적이고 일반화 가능한 평가 지표 개발 필요.
👍