본 논문은 강화학습(RL) 알고리즘이 실제 환경과의 상호작용이 어렵거나 고충실도 시뮬레이션이 비용이 많이 들거나 이용할 수 없는 경우에 많은 데이터를 필요로 하는 문제를 해결하기 위해, 다중 충실도 정책 경사(MFPG) 프레임워크를 제안합니다. MFPG는 목표 환경의 소량의 데이터와 대량의 저충실도 시뮬레이션 데이터를 혼합하여 온-폴리시 정책 경사에 대한 불편향, 저분산 추정량(제어 변수)을 생성합니다. REINFORCE와 근위 정책 최적화(PPO) 알고리즘의 다중 충실도 변형을 개발하여 프레임워크를 구현했습니다. 실험 결과, 목표 환경 샘플이 제한적인 경우 MFPG는 고충실도 데이터만 사용하는 기준선에 비해 최대 3.9배 높은 보상을 달성하고 훈련 안정성을 향상시켰습니다. 또한, 기준선이 최대 10배 많은 고충실도 샘플을 사용하는 경우에도 MFPG는 기준선과 동등하거나 더 나은 성능을 보였습니다. 마지막으로, 저충실도 환경이 목표 환경과 크게 다른 경우에도 MFPG가 효과적인 정책을 훈련할 수 있음을 확인했습니다. 따라서 MFPG는 효율적인 시뮬레이션-실제 전이를 위한 새로운 패러다임을 제공할 뿐만 아니라 정책 성능과 데이터 수집 비용 간의 절충을 관리하는 원칙적인 접근 방식을 제공합니다.