3D 댄스 모션의 자동 합성을 위한 최신 발전이 있었지만, 기존 방법은 높은 현실성, 정확한 댄스-음악 동기화, 다양한 모션 표현 및 물리적 타당성을 동시에 달성하는 데 어려움을 겪고 있습니다. 본 논문은 이러한 한계를 해결하기 위해, 음악, 장르, 포즈를 포함한 다양한 안내 신호로부터 고품질 댄스 모션 시퀀스로 확률적 매핑을 학습하기 위해 생성적 마스크된 텍스트-투-모션 모델을 분포 사전으로 활용하는 새로운 접근 방식을 제안합니다. 또한, 모션 인페인팅 및 신체 부위 수정과 같은 의미론적 모션 편집을 지원합니다. 구체적으로, 텍스트 조건부 마스크된 모션 백본과 두 개의 병렬, 모달리티별 분기(음악 안내 타워 및 포즈 안내 타워)를 통합하는 다중 타워 마스크된 모션 모델을 도입합니다. 이 모델은 동기화되고 점진적으로 마스크된 훈련을 사용하여 훈련되며, 이를 통해 사전 훈련된 텍스트-투-모션 사전이 댄스 합성에 효과적으로 주입되는 동시에 각 안내 분기가 자체 손실 함수를 통해 독립적으로 최적화되어 기울기 간섭을 완화할 수 있습니다. 추론 과정에서, 음악, 장르 및 포즈 신호의 영향을 강화하기 위해 분류기 없는 로짓 안내 및 포즈 기반 토큰 최적화를 도입합니다. 광범위한 실험을 통해 본 방법이 댄스 생성 분야에서 새로운 최고 성능을 보이며, 기존 접근 방식에 비해 품질과 편집 가능성을 크게 향상시켰음을 입증했습니다.