본 논문은 확산 모델을 블랙박스 목표에 맞추는 강력한 방법으로 떠오른 강화 학습 기반 미세 조정에서, 정책 최적화를 위한 가장 인기 있는 방법인 PPO의 과도한 하이퍼파라미터 민감성과 높은 계산 오버헤드 문제를 해결하고자 한다. REINFORCE는 계산 복잡성을 완화하지만 높은 분산과 샘플 비효율성으로 인해 성능이 저하된다는 한계를 지닌다. 이에 논문에서는 REINFORCE와 PPO의 효율성-효과성 절충 관계를 체계적으로 분석하고, 새로운 RL 기반 확산 미세 조정 방법인 leave-one-out PPO (LOOP)를 제안한다. LOOP는 REINFORCE의 분산 감소 기법(다중 액션 샘플링, 기준선 보정)과 PPO의 강건성 및 샘플 효율성(클리핑, 중요도 샘플링)을 결합하여 다양한 블랙박스 목표에서 확산 모델을 효과적으로 개선하고, 계산 효율성과 성능 간의 균형을 향상시킨다.