Sign In

GACA-DiT: Diffusion-based Dance-to-Music Generation with Genre-Adaptive Rhythm and Context-Aware Alignment

Created by
  • Haebom
Category
Empty

저자

Jinting Wang, Chenxing Li, Li Liu

개요

본 논문은 댄스 동작에 맞춰 리듬감 있고 시간적으로 일치하는 음악을 자동 생성하는 D2M(Dance-to-Music) 생성 모델인 GACA-DiT를 제안합니다. GACA-DiT는 두 가지 혁신적인 모듈을 통해 기존 방법의 문제점을 해결합니다. 첫째, 장르 적응형 리듬 추출 모듈은 다중 스케일 시간 웨이블릿 분석, 공간 위상 히스토그램, 적응형 관절 가중치를 결합하여 미세한 리듬 패턴을 포착합니다. 둘째, 컨텍스트 인식 시간 정렬 모듈은 학습 가능한 컨텍스트 쿼리를 사용하여 시간 불일치를 해결하고 음악 잠재 변수를 관련 댄스 리듬 특징과 정렬합니다. AIST++ 및 TikTok 데이터셋에 대한 실험 결과, GACA-DiT는 객관적 지표와 인간 평가 모두에서 기존 최고 성능 모델을 능가했습니다.

시사점, 한계점

시사점:
미세한 리듬 패턴을 포착하고 장르에 적응하는 리듬 추출 모듈을 통해 댄스와 음악의 리듬적 일관성을 향상시킴.
컨텍스트 인식 시간 정렬 모듈을 통해 시간 불일치를 해결하여 댄스와 음악 간의 정확한 동기화를 달성함.
객관적 및 주관적 평가에서 모두 기존 SOTA를 능가하여 모델의 우수성을 입증함.
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음.
👍