SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer
Created by
Haebom
저자
Yarden As, Chengrui Qu, Benjamin Unger, Dongho Kang, Max van der Hart, Laixi Shi, Stelian Coros, Adam Wierman, Andreas Krause
개요
시뮬레이터에서 훈련된 정책이 실제 환경으로 이전될 때 발생하는 시뮬레이션-실제 환경 간의 격차로 인한 안전 문제를 해결하기 위해, 안전하고 확장 가능한 강화 학습 알고리즘인 SPiDR (Sim-to-real via Pessimistic Domain Randomization)을 제안합니다. SPiDR은 도메인 무작위화를 활용하여 시뮬레이션-실제 환경 간의 불확실성을 안전 제약 조건에 통합하여 기존 훈련 파이프라인과 호환성을 높였습니다. 시뮬레이션 및 두 개의 실제 로봇 플랫폼 실험을 통해 SPiDR이 시뮬레이션-실제 환경 격차에도 불구하고 안전성을 보장하며 강력한 성능을 유지함을 입증했습니다.