본 논문은 GPU 기반 병렬 시뮬레이션의 발전에도 불구하고, 연성체 시뮬레이션의 속도 저하로 인해 강화학습(RL)의 로보틱스 적용이 제한적인 현실을 다룹니다. 이에 연구진은 연성체와 강체를 모두 포함하는 작업에서 RL의 확장성을 가능하게 하는 새로운 RL 알고리즘(SAPO)과 시뮬레이션 플랫폼(Rewarped)을 제시합니다. SAPO는 최대 엔트로피를 고려한 1차 모델 기반 actor-critic 알고리즘으로, 미분 가능한 시뮬레이션으로부터 얻은 1차 해석적 그래디언트를 사용하여 기대 수익과 엔트로피를 극대화하는 확률적 actor를 훈련시킵니다. Rewarped는 다양한 재료를 지원하는 병렬 미분 가능 다중 물리 시뮬레이션 플랫폼입니다. 실험 결과, SAPO는 강체, 관절, 연성체 간 상호 작용을 포함하는 다양한 작업에서 기존 알고리즘보다 우수한 성능을 보입니다.