ProgressVLA: Progress-Guided Diffusion Policy for Vision-Language Robotic Manipulation
작성자
Haebom
카테고리
Empty
저자
Hongyu Yan, Qiwei Li, Jiaolong Yang, Yadong Mu
💡 개요
본 논문은 기존 비전-언어-행동(VLA) 모델이 작업 완료 시점을 자동으로 판단하는 데 어려움이 있다는 문제점을 지적하며, 이를 해결하기 위해 작업 진행 상황을 인지하고 이를 바탕으로 행동을 제어하는 ProgressVLA 모델을 제안한다. 제안된 모델은 자체적인 진행 상황 추정기와 역 동학 기반의 세계 모델을 통해 행동 생성을 최적화하며, 이를 통해 장기적인 로봇 조작 작업에서 성공률과 일반화 성능을 크게 향상시킨다.
🔑 시사점 및 한계
•
로봇 조작에서 작업 진행 상황을 자동으로 추정하고 이를 강화 학습에 활용할 수 있는 새로운 접근 방식을 제시한다.
•
사전 학습된 진행 상황 추정기가 시뮬레이션 및 실제 환경에서 제로샷 일반화 성능을 보여, 다양한 로봇 조작 작업에 적용 가능성을 시사한다.
•
역 동학 세계 모델과 결합된 차별 가능한 진행 상황 안내 메커니즘은 행동 생성을 더욱 정교하게 만들어 장기 작업 수행 능력을 향상시킨다.
•
진행 상황 추정기의 정확도 향상 및 다양한 복잡도의 작업에 대한 적용성 검증이 향후 연구 과제로 남는다.