본 논문은 2025년 ICRA에서 개최된 "AI Olympics with RealAIGym" 대회 제3회의 해결책으로 제안된 Monte-Carlo Probabilistic Inference for Learning Control (MC-PILCO) 알고리즘을 설명한다. MC-PILCO는 데이터 효율성이 뛰어난 MBRL 알고리즘으로, 카트폴, 볼&플레이트, 후루타 펜듈럼 시스템 등 다양한 저차원 로봇 작업에서 효과를 입증했다. 시스템 상호작용 데이터를 이용해 시스템 동역학 모델을 최적화하고, 직접 시스템 데이터 최적화 대신 시뮬레이션을 통해 정책을 개선한다. 모델 자유(MF) 방식보다 데이터 효율성이 높으며, 이전 대회에서도 우승하여 시뮬레이션 및 실제 환경 모두에서 강건함을 입증했다. 본 논문에서는 알고리즘에 대한 간략한 검토와 함께 펜듈봇 및 아크로봇 시스템에 대한 전역 정책 학습에 있어 MC-PILCO 구현의 가장 중요한 측면을 논의한다.