바퀴와 다리를 결합한 로봇의 넘어짐 사고로부터의 적응적 복구를 위한 학습 기반 프레임워크를 제시한다. 에피소드 기반 동적 보상 형성 및 커리큘럼 학습을 통합하여 다양한 복구 동작 탐색과 자세 개선의 균형을 맞춘다. 비대칭 액터-크리틱 아키텍처를 통해 시뮬레이션에서 특권 정보를 활용하여 훈련 속도를 높이고, 노이즈가 주입된 관측을 통해 불확실성에 대한 견고성을 향상시킨다. 시너지 휠-레그 협력을 통해 관절 토크 소비를 줄이고 에너지 전달 메커니즘을 통해 안정성을 개선한다. 두 개의 쿼드러페드 플랫폼에서 최대 99.1% 및 97.8%의 복구 성공률을 달성했다.
시사점, 한계점
•
시사점:
◦
에피소드 기반 동적 보상 형성과 커리큘럼 학습을 통해 다양한 복구 동작을 효과적으로 학습.