본 논문은 확산 모델을 블랙박스 목표에 맞추는 강력한 방법으로 떠오른 강화 학습(RL) 기반 미세 조정에서, 정책 최적화에 가장 많이 사용되는 방법인 PPO의 높은 하이퍼파라미터 민감성과 상당한 계산 오버헤드 문제를 해결하고자 한다. REINFORCE는 계산 복잡성을 완화하지만 높은 분산과 표본 비효율성으로 인해 성능이 저하된다. 본 논문에서는 REINFORCE와 PPO의 효율성-효과성 절충 관계를 체계적으로 분석하고, Leave-One-Out PPO (LOOP)라는 새로운 RL 기반 확산 모델 미세 조정 방법을 제안한다. LOOP는 REINFORCE의 분산 감소 기법(입력 프롬프트당 여러 액션 샘플링 및 기준선 보정 항)과 PPO의 강건성 및 표본 효율성(클리핑 및 중요도 샘플링)을 결합하여 다양한 블랙박스 목표에서 확산 모델을 효과적으로 개선하고, 계산 효율성과 성능 간의 균형을 개선한다.
시사점, 한계점
•
시사점:
◦
PPO의 계산 비용 및 하이퍼파라미터 민감도 문제를 효과적으로 해결하는 새로운 RL 기반 확산 모델 미세 조정 방법인 LOOP 제안.
◦
REINFORCE의 분산 감소 기법과 PPO의 장점을 결합하여 계산 효율성과 성능 간의 최적의 균형을 달성.
◦
다양한 블랙박스 목표에서 확산 모델의 성능 향상을 실험적으로 검증.
•
한계점:
◦
LOOP의 성능이 모든 블랙박스 목표와 모든 확산 모델 아키텍처에서 PPO보다 우수하다는 것을 일반화하기에는 추가적인 실험이 필요할 수 있음.