본 논문은 모델 기반 강화 학습을 이용하여 다중 목표를 가진 숙련된 손 조작 작업을 학습하는 문제를 다룹니다. 고차원 숙련된 손의 역동성을 설명하기 위해 확률적 신경망 앙상블을 설계하고, 실제 숙련된 손 시스템의 제어 주파수 요구 사항을 충족하기 위해 비동기 MPC 정책을 도입하여 목표 조건부 확률적 모델 예측 제어(GC-PMPC)를 제안합니다. 무작위로 생성된 목표를 가진 네 가지 시뮬레이션된 Shadow Hand 조작 시나리오에 대한 광범위한 평가는 GC-PMPC가 최첨단 기준보다 우수한 성능을 보임을 보여줍니다. 12개의 능동 DOF와 5개의 촉각 센서를 가진 케이블 구동형 숙련된 손인 DexHand 021을 사용하여 입방체 주사위를 약 80분의 상호 작용 내에 세 가지 목표 자세로 조작하는 학습을 성공적으로 수행하여 비용 효율적인 숙련된 손 플랫폼에서 뛰어난 학습 효율과 제어 성능을 보여줍니다.
시사점, 한계점
•
시사점:
◦
고차원 숙련된 손 조작 작업에 대한 효율적이고 효과적인 모델 기반 강화 학습 프레임워크인 GC-PMPC를 제시합니다.
◦
실제 로봇 시스템(DexHand 021)에서의 성공적인 구현을 통해 실용성을 입증합니다.
◦
비교적 짧은 상호 작용 시간(약 80분) 내에 다중 목표 조작 작업 학습을 달성하여 높은 학습 효율을 보여줍니다.
◦
비용 효율적인 숙련된 손 플랫폼을 사용하여 실험을 수행함으로써 접근성을 높입니다.
•
한계점:
◦
현재는 시뮬레이션 환경과 실제 로봇 시스템 모두에서 제한된 수의 작업에 대해서만 평가되었습니다. 더 다양하고 복잡한 작업에 대한 일반화 성능이 추가적으로 검증되어야 합니다.
◦
실제 환경의 불확실성과 노이즈에 대한 강건성을 더욱 높일 필요가 있습니다.
◦
사용된 숙련된 손 플랫폼의 특징에 의존적인 부분이 있을 수 있으며, 다른 유형의 숙련된 손에 대한 적용 가능성을 확인해야 합니다.