Learning Diffusion Models with Flexible Representation Guidance
Created by
Haebom
저자
Chenyu Wang, Cai Zhou, Sharut Gupta, Zongyu Lin, Stefanie Jegelka, Stephen Bates, Tommi Jaakkola
개요
본 논문은 확산 모델의 효율적인 입력 표현을 위한 추가적인 가이드를 통한 성능 향상 방법을 제시합니다. 기존 연구에서 사전 훈련된 모델의 내부 표현과 확산 모델의 내부 표현을 정렬하는 것이 생성 품질을 향상시킨다는 것을 보여준 바 있습니다. 이 논문에서는 확산 모델에 표현 가이드를 통합하는 체계적인 프레임워크를 제시하고, 보조 표현이 언제 어떻게 통합되는지를 결정하는 다양한 잡음 제거 모델 분해와 관련 훈련 기준을 제공합니다. 이론적 통찰력을 바탕으로, 두 가지 새로운 전략을 통해 확산 모델의 표현 정렬을 향상시킵니다. 첫째, 자신으로부터 유도되거나 다른 합성 모드로부터 생성된 대상 표현과 예제를 짝짓고, 다중 모드 쌍에 대한 공동 모델을 학습합니다. 둘째, 표현 학습과 데이터 생성의 균형을 맞추는 최적의 훈련 커리큘럼을 설계합니다. 이미지, 단백질 서열 및 분자 생성 작업에 대한 실험을 통해 우수한 성능과 가속화된 훈련을 보여줍니다. 특히, 조건부 ImageNet $256\times 256$ 벤치마크에서 제안된 가이드는 기존 SiT-XL보다 23.3배 빠른 훈련 속도와 최첨단 방법인 REPA보다 4배 빠른 속도를 달성합니다. 코드는 https://github.com/ChenyuWang-Monica/REED 에서 확인할 수 있습니다.