Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Zeroth-order Informed Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer

Created by
  • Haebom
Category
Empty

저자

Tao Ren, Zishi Zhang, Zehao Li, Jingyang Jiang, Shentao Qin, Guanghao Li, Yan Li, Yi Zheng, Xinping Li, Min Zhan, Yijie Peng

개요

확률적 확산 모델(DM)은 순환 사슬 구조를 통한 추론으로 콘텐츠를 생성하는 강력한 프레임워크로 떠올랐습니다. 방대한 비표지 데이터로 사전 훈련된 후, 다운스트림 애플리케이션 요구 사항을 충족하도록 모델을 적절히 정렬해야 합니다. 기본 DM을 효율적으로 정렬하는 방법은 중요한 과제입니다. 기존 방법은 강화 학습(RL) 또는 절단된 역전파(BP)를 기반으로 합니다. 그러나 RL과 절단된 BP는 각각 낮은 샘플 효율성과 편향된 기울기 추정으로 인해 개선이 제한적이거나, 더 나쁜 경우 훈련 실패를 초래합니다. 이러한 과제를 극복하기 위해, 본 논문에서는 DM을 위한 0차 정보 미세 조정 패러다임인 재귀적 가능도 비율(RLR) 최적화기를 제안합니다. 0차 기울기 추정기는 순환 확산 사슬 내에서 계산 그래프 재배열을 가능하게 하여 RLR의 기울기 추정기를 다른 방법보다 분산이 낮은 불편향 추정기로 만듭니다. 본 논문에서는 RLR의 성능에 대한 이론적 보장을 제공합니다. 이미지 및 비디오 생성 작업에 대한 광범위한 실험을 통해 RLR의 우수성을 검증했습니다. 또한 RLR에 자연스러운 새로운 프롬프트 기법을 제안하여 시너지 효과를 달성했습니다.

시사점, 한계점

시사점:
0차 기울기 추정을 기반으로 한 RLR 최적화기를 제안하여 기존 RL 및 절단된 BP 방식의 한계를 극복했습니다.
RLR의 불편향 기울기 추정 및 낮은 분산을 이론적으로 보장했습니다.
이미지 및 비디오 생성 작업에서 RLR의 우수성을 실험적으로 검증했습니다.
RLR과 시너지 효과를 내는 새로운 프롬프트 기법을 제안했습니다.
한계점:
제안된 RLR 최적화기의 성능은 특정 데이터셋과 작업에 의존적일 수 있습니다.
RLR 최적화기의 계산 비용이 기존 방법보다 높을 수 있습니다.
새로운 프롬프트 기법의 일반성과 적용 가능성에 대한 추가 연구가 필요합니다.
👍