Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning Diffusion Models with Flexible Representation Guidance

Created by
  • Haebom

저자

Chenyu Wang, Cai Zhou, Sharut Gupta, Zongyu Lin, Stefanie Jegelka, Stephen Bates, Tommi Jaakkola

개요

본 논문은 확산 모델의 효율적인 입력 표현을 위한 추가적인 가이드를 통한 성능 향상 방법을 제시합니다. 기존 연구에서 사전 훈련된 모델의 내부 표현과 확산 모델의 내부 표현을 정렬하는 것이 생성 품질을 향상시킨다는 것을 보여준 바 있습니다. 이 논문에서는 확산 모델에 표현 가이드를 통합하는 체계적인 프레임워크를 제시하고, 보조 표현이 언제 어떻게 통합되는지를 결정하는 다양한 잡음 제거 모델 분해와 관련 훈련 기준을 제공합니다. 이론적 통찰력을 바탕으로, 두 가지 새로운 전략을 통해 확산 모델의 표현 정렬을 향상시킵니다. 첫째, 자신으로부터 유도되거나 다른 합성 모드로부터 생성된 대상 표현과 예제를 짝짓고, 다중 모드 쌍에 대한 공동 모델을 학습합니다. 둘째, 표현 학습과 데이터 생성의 균형을 맞추는 최적의 훈련 커리큘럼을 설계합니다. 이미지, 단백질 서열 및 분자 생성 작업에 대한 실험을 통해 우수한 성능과 가속화된 훈련을 보여줍니다. 특히, 조건부 ImageNet $256\times 256$ 벤치마크에서 제안된 가이드는 기존 SiT-XL보다 23.3배 빠른 훈련 속도와 최첨단 방법인 REPA보다 4배 빠른 속도를 달성합니다. 코드는 https://github.com/ChenyuWang-Monica/REED 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
확산 모델의 훈련 속도를 획기적으로 향상시키는 새로운 프레임워크와 전략 제시 (ImageNet $256\times 256$ 에서 기존 모델 대비 23.3배 속도 향상).
다양한 모달리티(이미지, 단백질 서열, 분자) 생성 작업에서 우수한 성능을 입증.
표현 학습과 데이터 생성의 균형을 맞추는 최적의 훈련 커리큘럼 설계.
다중 모드 쌍에 대한 공동 모델 학습을 통한 표현 정렬 향상.
공개된 코드를 통해 재현성 확보.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
특정 데이터셋과 모델에 최적화된 하이퍼파라미터 설정에 대한 상세한 설명 부족.
다른 최첨단 확산 모델과의 더욱 포괄적인 비교 분석 필요.
👍