Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer
Created by
Haebom
Category
Empty
저자
Tao Ren, Zishi Zhang, Zehao Li, Jingyang Jiang, Shentao Qin, Guanghao Li, Yan Li, Yi Zheng, Xinping Li, Min Zhan, Yijie Peng
개요
확률적 확산 모델(DM)은 순환 사슬 구조를 통한 추론으로 콘텐츠를 생성하는 강력한 프레임워크로 떠올랐습니다. 방대한 비표지 데이터로 사전 훈련된 후, 다운스트림 애플리케이션 요구 사항을 충족하도록 모델을 적절히 정렬해야 합니다. 기본 DM을 효율적으로 정렬하는 방법은 중요한 과제입니다. 기존 방법은 강화 학습(RL) 또는 절단된 역전파(BP)를 기반으로 합니다. 그러나 RL과 절단된 BP는 각각 낮은 샘플 효율성과 편향된 기울기 추정으로 인해 개선이 제한적이거나, 더 나쁜 경우 훈련 실패를 초래합니다. 이러한 과제를 극복하기 위해, 본 논문에서는 DM을 위한 0차 정보 미세 조정 패러다임인 재귀적 가능도 비율(RLR) 최적화기를 제안합니다. 0차 기울기 추정기는 순환 확산 사슬 내에서 계산 그래프 재배열을 가능하게 하여 RLR의 기울기 추정기를 다른 방법보다 분산이 낮은 불편향 추정기로 만듭니다. 본 논문에서는 RLR의 성능에 대한 이론적 보장을 제공합니다. 이미지 및 비디오 생성 작업에 대한 광범위한 실험을 통해 RLR의 우수성을 검증했습니다. 또한 RLR에 자연스러운 새로운 프롬프트 기법을 제안하여 시너지 효과를 달성했습니다.
시사점, 한계점
•
시사점:
◦
0차 기울기 추정을 기반으로 한 RLR 최적화기를 제안하여 기존 RL 및 절단된 BP 방식의 한계를 극복했습니다.