Sign In

Seeking Physics in Diffusion Noise

Created by
  • Haebom
Category
Empty

저자

Chujun Tang, Lei Zhong, Fangqiang Ding

💡 개요

본 연구는 비디오 확산 모델이 물리적 타당성을 예측하는 신호를 인코딩하는지 탐구합니다. 사전 학습된 확산 변환기(DiT)의 중간 잡음 제거 표현을 분석한 결과, 물리적으로 타당하거나 타당하지 않은 비디오가 잡음 수준에 따라 중간 계층 특징 공간에서 부분적으로 분리될 수 있음을 발견했습니다. 이를 기반으로, 본 연구는 경량 물리 검증기를 사용하여 병렬 잡음 제거 궤적을 평가하고 저득점 후보를 조기에 제거하는 추론 시간 전략인 '점진적 궤적 선택'을 제안합니다.

🔑 시사점 및 한계

확산 모델의 중간 표현에서 물리적 타당성과 관련된 신호를 추출할 수 있습니다.
제안된 '점진적 궤적 선택' 전략은 물리적 일관성을 향상시키면서 추론 비용을 절감할 수 있습니다.
본 연구는 향후 확산 모델이 물리 법칙을 더 잘 이해하고 물리적으로 정확한 비디오를 생성하도록 개선하는 데 기여할 수 있습니다.
제안된 방법은 '동결된(frozen)' 확산 모델 특징에 의존하므로, 모델 자체의 물리적 이해 능력을 직접적으로 측정하는 데 한계가 있을 수 있으며, 더 복잡한 물리 현상에 대한 적용 가능성은 추가적인 검증이 필요합니다.
👍