Diff-V2M은 시각적 콘텐츠에 맞춰 음악을 생성하는 비디오-음악 생성(V2M) 프레임워크입니다. 이 모델은 두 가지 주요 과제, 즉 명시적인 리듬 모델링 부족과 다양한 시각적 특징의 효과적인 통합을 해결하기 위해 개발되었습니다. Diff-V2M은 계층적 조건부 확산 모델을 기반으로 하며, 시각적 특징 추출과 조건부 음악 생성이라는 두 가지 핵심 구성 요소로 이루어져 있습니다. 리듬 모델링을 위해 여러 리듬 표현(저해상도 멜 스펙트로그램, 템포그램, 시작 감지 기능(ODF))을 평가하고 비디오에서 직접 추론하는 리듬 예측기를 고안했습니다. 또한, 맥락적, 감성적 일관성을 위해 의미적 및 감성적 특징을 추출합니다. 이러한 모든 특징은 계층적 교차 주의 메커니즘을 통해 생성기에 통합됩니다. 감성 특징은 첫 번째 레이어를 통해 감성적 톤을 형성하고, 의미적 및 리듬적 특징은 두 번째 교차 주의 레이어에서 융합됩니다. 특징 통합을 개선하기 위해 FiLM (feature-wise linear modulation) 및 가중 융합과 같은 timestep-aware 융합 전략을 도입하여 모델이 확산 과정 전반에 걸쳐 의미적 및 리듬적 단서를 적응적으로 균형을 맞출 수 있도록 합니다. 실험 결과는 저해상도 ODF가 음악 리듬 모델링에 더 효과적임을 보여주며, Diff-V2M이 기존 모델보다 우수한 성능을 보였습니다.