본 논문은 대량의 데이터 요구로 인해 실제 시스템 배포 또는 고비용 시뮬레이션 훈련에 어려움을 겪는 강화 학습(RL) 알고리즘의 문제를 해결하기 위해 제안된 Multi-fidelity Policy Gradients (MFPGs) 프레임워크를 제시합니다. MFPG는 적은 양의 타겟 환경 데이터를 저품질 시뮬레이션 데이터의 제어 변수와 혼합하여 on-policy policy gradients에 대한 편향되지 않은 분산 감소 추정기를 구성합니다. 특히, 고전적인 REINFORCE 알고리즘의 multi-fidelity 변형을 구현하여, 표준 가정 하에 타겟 환경에서 REINFORCE의 점근적 수렴을 보장하고, 고품질 데이터만 사용한 훈련보다 더 빠른 유한 샘플 수렴 속도를 달성합니다. MFPG는 시뮬레이션 로봇 벤치마크를 통해 평가되었으며, 제한된 고품질 데이터와 풍부한 저품질 데이터를 활용하여, 단순성과 최소한의 튜닝 오버헤드에도 불구하고 우수한 성능을 보였습니다. 또한, MFPG는 저품질 보상 미지정 환경에서도 효과적임을 입증하여, sim-to-real 전이 효율성을 높이고 정책 성능과 데이터 수집 비용 간의 균형을 제공합니다.