본 논문은 확산 기반 시각 운동 정책을 기반으로 하는 실제 로봇 조작을 위한 RL-100이라는 강화 학습 프레임워크를 제시합니다. 이 프레임워크는 모방 학습과 강화 학습을 단일 PPO 스타일 목표로 통합하여 안정적이고 보수적인 정책 개선을 달성합니다. 배포 지연 시간 제약을 충족하기 위해, 다단계 확산을 단일 단계 컨트롤러로 압축하는 가벼운 일관성 증류 절차를 사용합니다. RL-100은 7가지 실제 로봇 조작 작업에서 100% 성공률을 달성했으며, 환경 및 동역학 변화에 대해 약 90%의 제로샷 성공률을 보였고, 소수 샷 환경에서 상당한 작업 변화에 적응하며, 적극적인 인간 간섭에도 견고함을 유지했습니다.
시사점, 한계점
•
시사점:
◦
확산 기반 시각 운동 정책을 사용하여 실제 로봇 조작 문제를 해결하는 혁신적인 접근 방식을 제시함.
◦
모방 학습과 강화 학습을 통합하여 안정적이고 보수적인 정책 개선을 달성함.
◦
배포 지연 시간 제약을 충족하기 위한 경량화 기술을 사용함.
◦
다양한 실제 로봇 조작 작업에서 높은 성공률을 달성하고, 제로샷 및 소수 샷 환경에서도 우수한 성능을 보임.