PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions

Created by

Haebom

저자

Arnau Boix-Granell, Alberto San-Miguel-Tello, Magi Dalmau-Moreno, Nestor Garcia

💡 개요

본 논문은 로봇 조작 분야에서 명령어 기반 모방 학습 정책의 개인화된 개선 방법인 PRISM을 제안합니다. PRISM은 모방 학습(IL)과 강화 학습(RL) 프레임워크를 통합하여, 사용자 안내 시연으로부터 생성된 일반적인 작업에 대한 모방 정책을 강화 학습을 통해 미세한 새로운 행동으로 개선합니다. 이 과정은 자연어 작업 설명으로부터 반복적으로 RL 보상 함수를 생성하는 Eureka 패러다임을 기반으로 하며, 새로운 목표 구성과 제약 조건에 적응하고 중간 롤아웃에 대한 인간 피드백 수정을 추가하여 정책의 재사용성과 데이터 효율성을 높입니다.

🔑 시사점 및 한계

•

모방 학습 정책을 강화 학습으로 효과적으로 개선하여 새로운 목표와 제약 조건에 적응시키고 데이터 효율성을 증대시킬 수 있습니다.

•

인간 피드백을 통합하여 정책의 견고성을 향상시키고 계산 부담을 줄일 수 있습니다.

•

제안된 방법은 시뮬레이션 환경의 단순한 픽앤플레이스 작업에서 좋은 성능을 보였으나, 실제 로봇 환경이나 더 복잡한 작업에 대한 성능 검증이 필요합니다.

PDF 보기

Made with Slashpage