Sign In

Structured Preference Optimization for Vision-Language Long-Horizon Task Planning

Created by
  • Haebom
Category
Empty

저자

Xiwen Liang, Min Lin, Weiqi Ruan, Rongtao Xu, Yuecheng Liu, Jiaqi Chen, Bingqian Lin, Yuzheng Zhuang, Xiaodan Liang

개요

본 논문은 동적인 환경에서 장기간 계획이 필요한 복잡한 시각-언어 작업 계획에서 기존 방법의 한계를 해결하기 위해 구조적 선호도 최적화(SPO) 방법을 제안합니다. SPO는 작업 관련성, 시각적 근거, 과거 일관성을 기반으로 추론 과정을 체계적으로 평가하는 선호도 기반 점수 및 최적화와 단순한 작업부터 복잡한 작업까지 모델을 점진적으로 적응시키는 커리큘럼 기반 학습을 통해 장기간 작업 계획에서 추론 및 행동 선택을 향상시킵니다. 또한, VirtualHome과 Habitat 2.0에 걸쳐 1,509개의 작업으로 구성된 종합적인 벤치마크인 ExtendaBench를 소개하여 장기간 시각-언어 작업 계획 연구를 발전시킵니다. 실험 결과, SPO는 장기간 작업에서 기존 방법보다 우수한 추론 품질과 최종 의사 결정 정확도를 달성함을 보여줍니다.

시사점, 한계점

시사점:
장기간 시각-언어 작업 계획에서 추론 및 행동 선택을 향상시키는 효과적인 방법인 구조적 선호도 최적화(SPO)를 제시.
선호도 기반 점수 및 최적화, 커리큘럼 기반 학습을 통해 장기간 작업 계획의 성능을 향상시킬 수 있음을 실험적으로 증명.
시각-언어 장기간 작업 계획을 위한 종합적인 벤치마크인 ExtendaBench를 제공.
VirtualHome과 Habitat 2.0에서 기존 최고 성능 기준 모델보다 성능 향상을 보임 (VirtualHome: GCR +5.98%, SR +4.68%; Habitat: GCR +3.30%, SR +2.11%).
한계점:
ExtendaBench의 규모와 다양성이 더욱 확장될 필요가 있음.
SPO의 성능이 특정 환경이나 작업 유형에 편향될 가능성 존재.
실제 세계 환경으로의 일반화 성능에 대한 추가적인 연구가 필요.
👍