본 논문은 확산 모델을 블랙박스 목표에 맞추는 강력한 방법으로 떠오른 강화 학습(RL) 기반 미세 조정에서, 정책 최적화 방법으로 가장 널리 사용되는 Proximal Policy Optimization (PPO)의 높은 하이퍼파라미터 민감도와 상당한 계산 오버헤드 문제를 해결하기 위한 연구이다. PPO의 단점을 보완하기 위해 REINFORCE 알고리즘의 장점(낮은 메모리 오버헤드, 민감도 낮은 하이퍼파라미터 튜닝)을 활용하면서, REINFORCE의 고분산 및 표본 비효율 문제를 해결하는 새로운 알고리즘인 Leave-One-Out PPO (LOOP)를 제안한다. LOOP는 REINFORCE의 분산 감소 기법(입력 프롬프트당 여러 액션 샘플링, 베이스라인 보정)과 PPO의 강건성 및 표본 효율성(클리핑 및 중요도 샘플링)을 결합하여 계산 효율성과 성능 간의 균형을 개선한다. 실험 결과, LOOP는 다양한 블랙박스 목표에서 확산 모델을 효과적으로 개선하는 것을 보여준다.