본 논문은 확산 모델을 블랙박스 목표에 맞추는 강력한 방법으로 떠오른 강화 학습 기반 미세 조정에서, 정책 최적화를 위한 방법으로 가장 널리 사용되는 PPO의 높은 하이퍼파라미터 민감도와 상당한 계산 오버헤드 문제점을 지적합니다. REINFORCE는 계산 복잡성을 완화하지만, 높은 분산과 표본 비효율성으로 인해 성능이 좋지 않습니다. 본 논문은 REINFORCE와 PPO의 효율성-효과성 절충 관계를 체계적으로 분석하여 새로운 RL 기반 확산 모델 미세 조정 방법인 leave-one-out PPO (LOOP)를 제안합니다. LOOP는 REINFORCE의 분산 감소 기법(입력 프롬프트당 여러 액션 샘플링 및 기준선 보정 항)과 PPO의 강건성 및 표본 효율성(클리핑 및 중요도 샘플링)을 결합하여 다양한 블랙박스 목표에서 확산 모델을 효과적으로 개선하고 계산 효율성과 성능 간의 균형을 개선합니다.
시사점, 한계점
•
시사점:
◦
PPO의 높은 계산 비용 및 하이퍼파라미터 민감도 문제를 해결하는 새로운 방법인 LOOP 제시.
◦
REINFORCE의 높은 분산 문제를 완화하면서 PPO의 강점을 결합하여 효율성과 성능을 개선.