본 논문은 볼봇(Ballbot, 공 위에 균형을 유지하는 로봇)의 탐색에 강화학습(Reinforcement Learning, RL)을 적용한 연구의 부재를 지적하고, 이를 해결하기 위해 MuJoCo 기반의 오픈소스 볼봇 시뮬레이터를 제시합니다. 기존의 제어이론(Control Theory, CT) 기반 방법과 달리, RL은 환경 역학에 대한 단순화된 가정(예: 공과 바닥 사이의 미끄러짐 없음)이 필요 없어 모델링 정확도를 높이고, 깊이 맵과 같은 추가 관측값을 쉽게 조건으로 설정할 수 있어 적응력이 향상됩니다. 본 논문에서는 적절한 외계 관측값 조건 설정과 보상 함수 설계를 통해, 일반적인 모델-자유 RL 방법으로 학습된 정책이 다양한 불규칙 지형에서 효과적으로 탐색할 수 있음을 보여줍니다. 학습에는 500Hz 시스템에서 4~5시간의 데이터만 필요했습니다.