Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Flash-DMD: Towards High-Fidelity Few-Step Image Generation with Efficient Distillation and Joint Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Guanjie Chen, Shirui Huang, Kai Liu, Jianchen Zhu, Xiaoye Qu, Peng Chen, Yu Cheng, Yifu Sun

Flash-DMD: 빠른 컨버전스와 결합된 RL 기반 개선을 위한 프레임워크

개요

확산 모델은 생성 모델의 주요 클래스로 부상했지만, 반복적인 샘플링 프로세스는 계산 비용이 많이 듭니다. Timestep 증류는 생성을 가속화하는 유망한 기술이지만, 광범위한 훈련이 필요하고 이미지 품질 저하를 초래하는 경우가 많습니다. 또한, 미적 매력 또는 사용자 선호도와 같은 특정 목표를 위해 강화 학습(RL)을 사용하여 이러한 증류된 모델을 미세 조정하는 것은 불안정하며 보상 해킹에 쉽게 빠집니다. 이 연구에서는 증류와 결합된 RL 기반 개선을 통해 빠른 컨버전스를 가능하게 하는 새로운 프레임워크인 Flash-DMD를 소개합니다. 구체적으로, 먼저 향상된 현실감으로 훈련 비용을 크게 줄이는 효율적인 timestep-aware 증류 전략을 제안하며, DMD2보다 2.1%의 훈련 비용으로 성능을 능가합니다. 둘째, timestep 증류 훈련이 동시에 진행되는 동안 RL 목표로 모델을 미세 조정하는 결합된 훈련 방식을 소개합니다. 지속적인 증류에서 안정적이고 잘 정의된 손실이 강력한 정규화제 역할을 하여 RL 훈련 프로세스를 효과적으로 안정화하고 정책 붕괴를 방지한다는 것을 보여줍니다. 점수 기반 및 흐름 매칭 모델에 대한 광범위한 실험을 통해 Flash-DMD가 훨씬 더 빠르게 수렴될 뿐만 아니라 적은 단계의 샘플링 체제에서 시각적 품질, 인간 선호도 및 텍스트-이미지 정렬 지표에서 기존 방법보다 뛰어난 최첨단 생성 품질을 달성합니다. 이 연구는 효율적이고 충실도가 높으며 안정적인 생성 모델을 훈련하기 위한 효과적인 패러다임을 제시합니다.

시사점, 한계점

시사점:
Flash-DMD는 timestep 증류와 결합된 RL 기반 개선을 통해 빠른 컨버전스를 달성합니다.
효율적인 timestep-aware 증류 전략은 훈련 비용을 줄이고 현실감을 향상시킵니다.
결합된 RL 훈련은 RL 훈련 프로세스를 안정화하고 정책 붕괴를 방지합니다.
몇 단계의 샘플링 체제에서 최첨단 생성 품질을 달성합니다.
한계점:
코드 공개가 예정되어 있습니다. (추후 확인 필요)
👍