DeformPAM: Data-Efficient Learning for Long-horizon Deformable Object Manipulation via Preference-based Action Alignment
Created by
Haebom
Category
Empty
저자
Wendi Chen, Han Xue, Fangyuan Zhou, Yuan Fang, Cewu Lu
개요
본 논문은 변형 가능한 물체를 다루는 복잡하고 장기간의 로봇 조작 작업에서 발생하는 고차원 상태 공간, 복잡한 동역학, 다중 모드 동작 분포와 같은 문제점을 해결하기 위해 데이터 효율적인 일반 학습 프레임워크인 DeformPAM을 제안합니다. DeformPAM은 선호도 학습과 보상 기반 동작 선택을 기반으로 하며, 장기간 작업을 여러 동작 기본 요소로 분해하고, 3D 점 구름 입력과 확산 모델을 사용하여 동작 분포를 모델링하고, 사람의 선호도 데이터를 사용하여 암시적 보상 모델을 학습합니다. 추론 단계에서는 보상 모델이 여러 후보 동작을 평가하여 최적의 동작을 선택함으로써 이상 동작 발생을 줄이고 작업 완료 품질을 향상시킵니다. 세 가지 실제 장기간 변형 가능한 물체 조작 작업에 대한 실험 결과, DeformPAM은 제한된 데이터로도 기준 방법에 비해 작업 완료 품질과 효율성을 모두 향상시키는 것으로 나타났습니다. 코드와 데이터는 https://deform-pam.robotflow.ai에서 제공될 예정입니다.
시사점, 한계점
•
시사점:
◦
변형 가능한 물체를 다루는 복잡한 장기간 로봇 조작 작업에 대한 효과적인 해결책 제시
◦
데이터 효율적인 학습 프레임워크 DeformPAM을 통해 제한된 데이터로도 높은 성능 달성