확산 모델은 생성 모델의 주요 클래스로 부상했지만, 반복적인 샘플링 프로세스는 계산 비용이 많이 듭니다. Timestep 증류는 생성을 가속화하는 유망한 기술이지만, 광범위한 훈련이 필요하고 이미지 품질 저하를 초래하는 경우가 많습니다. 또한, 미적 매력 또는 사용자 선호도와 같은 특정 목표를 위해 강화 학습(RL)을 사용하여 이러한 증류된 모델을 미세 조정하는 것은 불안정하며 보상 해킹에 쉽게 빠집니다. 이 연구에서는 증류와 결합된 RL 기반 개선을 통해 빠른 컨버전스를 가능하게 하는 새로운 프레임워크인 Flash-DMD를 소개합니다. 구체적으로, 먼저 향상된 현실감으로 훈련 비용을 크게 줄이는 효율적인 timestep-aware 증류 전략을 제안하며, DMD2보다 2.1%의 훈련 비용으로 성능을 능가합니다. 둘째, timestep 증류 훈련이 동시에 진행되는 동안 RL 목표로 모델을 미세 조정하는 결합된 훈련 방식을 소개합니다. 지속적인 증류에서 안정적이고 잘 정의된 손실이 강력한 정규화제 역할을 하여 RL 훈련 프로세스를 효과적으로 안정화하고 정책 붕괴를 방지한다는 것을 보여줍니다. 점수 기반 및 흐름 매칭 모델에 대한 광범위한 실험을 통해 Flash-DMD가 훨씬 더 빠르게 수렴될 뿐만 아니라 적은 단계의 샘플링 체제에서 시각적 품질, 인간 선호도 및 텍스트-이미지 정렬 지표에서 기존 방법보다 뛰어난 최첨단 생성 품질을 달성합니다. 이 연구는 효율적이고 충실도가 높으며 안정적인 생성 모델을 훈련하기 위한 효과적인 패러다임을 제시합니다.