본 논문은 강화 학습(RL) 알고리즘의 데이터 요구량 문제를 해결하기 위해 다중 충실도 정책 경사(MFPG) 프레임워크를 제안합니다. MFPG는 실제 환경(high-fidelity) 데이터와 저충실도 시뮬레이션(low-fidelity) 데이터를 결합하여, 불편향적이고 분산이 감소된 정책 경사 추정치를 생성합니다. REINFORCE와 Proximal Policy Optimization 알고리즘에 MFPG를 적용하여 로봇 시뮬레이션 실험을 진행한 결과, 실제 환경 데이터가 제한적인 경우 기존 방법 대비 최대 3.9배 높은 보상을 달성하고 훈련 안정성을 향상시켰습니다. 실제 환경 데이터를 10배 더 많이 사용하는 기존 방법과 비교하여도 MFPG는 동등하거나 더 나은 성능을 보였으며, 저충실도 환경이 실제 환경과 크게 다를 때에도 효과적인 정책을 학습하는 것을 확인했습니다. 따라서 MFPG는 효율적인 sim-to-real 전이를 위한 새로운 패러다임을 제시하고 정책 성능과 데이터 수집 비용 간의 절충을 체계적으로 관리하는 접근 방식을 제공합니다.