Learning from Imperfect Demonstrations with Self-Supervision for Robotic Manipulation
Created by
Haebom
Category
Empty
저자
Kun Wu, Ning Liu, Zhen Zhao, Di Qiu, Jinming Li, Zhengping Che, Zhiyuan Xu, Jian Tang
개요
본 논문은 로봇 조작에서 불완전한 데이터(작업 실패로 인한 데이터)를 효과적으로 활용하는 방법을 제시합니다. 기존의 모방 학습(IL)은 성공적인 전문가 데이터만 사용하는 반면, 강화 학습(RL)은 시뮬레이션과 현실 간의 차이 및 밀집 보상, 온라인 탐색에 대한 의존성으로 인해 실제 환경에 적용하기 어렵습니다. 이 논문에서는 보상 정보 없이도 불완전한 데이터를 활용하여 로봇 조작의 모델 성능을 오프라인 방식으로 향상시키는 자기 지도 데이터 필터링 프레임워크(SSDF)를 제안합니다. SSDF는 전문가 데이터와 불완전한 데이터를 결합하여 실패한 궤적 세그먼트의 품질 점수를 계산하고, 고품질 세그먼트를 사용하여 훈련 데이터셋을 확장합니다. 확장된 데이터셋은 로봇 조작 작업에 대한 다양한 정책 학습 방법에 사용될 수 있습니다. ManiSkill2 벤치마크와 Franka 로봇 팔을 사용한 실제 로봇 조작 작업에 대한 광범위한 실험을 통해 SSDF가 고품질의 불완전한 데이터로 훈련 데이터셋을 정확하게 확장하고 모든 로봇 조작 작업의 성공률을 향상시킬 수 있음을 보여줍니다.
시사점, 한계점
•
시사점:
◦
로봇 조작에서 불완전한 데이터를 효과적으로 활용하여 데이터 효율성을 높일 수 있는 새로운 방법 제시.