Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Walk Before You Dance: High-fidelity and Editable Dance Synthesis via Generative Masked Motion Prior

Created by
  • Haebom
Category
Empty

저자

Foram N Shah, Parshwa Shah, Muhammad Usama Saleem, Ekkasit Pinyoanuntapong, Pu Wang, Hongfei Xue, Ahmed Helmy

개요

3D 댄스 모션의 자동 합성을 위한 최신 발전이 있었지만, 기존 방법은 높은 현실성, 정확한 댄스-음악 동기화, 다양한 모션 표현 및 물리적 타당성을 동시에 달성하는 데 어려움을 겪고 있습니다. 본 논문은 이러한 한계를 해결하기 위해, 음악, 장르, 포즈를 포함한 다양한 안내 신호로부터 고품질 댄스 모션 시퀀스로 확률적 매핑을 학습하기 위해 생성적 마스크된 텍스트-투-모션 모델을 분포 사전으로 활용하는 새로운 접근 방식을 제안합니다. 또한, 모션 인페인팅 및 신체 부위 수정과 같은 의미론적 모션 편집을 지원합니다. 구체적으로, 텍스트 조건부 마스크된 모션 백본과 두 개의 병렬, 모달리티별 분기(음악 안내 타워 및 포즈 안내 타워)를 통합하는 다중 타워 마스크된 모션 모델을 도입합니다. 이 모델은 동기화되고 점진적으로 마스크된 훈련을 사용하여 훈련되며, 이를 통해 사전 훈련된 텍스트-투-모션 사전이 댄스 합성에 효과적으로 주입되는 동시에 각 안내 분기가 자체 손실 함수를 통해 독립적으로 최적화되어 기울기 간섭을 완화할 수 있습니다. 추론 과정에서, 음악, 장르 및 포즈 신호의 영향을 강화하기 위해 분류기 없는 로짓 안내 및 포즈 기반 토큰 최적화를 도입합니다. 광범위한 실험을 통해 본 방법이 댄스 생성 분야에서 새로운 최고 성능을 보이며, 기존 접근 방식에 비해 품질과 편집 가능성을 크게 향상시켰음을 입증했습니다.

시사점, 한계점

시사점:
고품질의 현실적인 3D 댄스 모션 생성을 위한 새로운 프레임워크 제시
음악, 장르, 포즈와 같은 다양한 안내 신호를 효과적으로 통합
모션 인페인팅 및 신체 부위 수정과 같은 의미론적 모션 편집 기능 제공
댄스 생성 분야에서 SOTA 달성
한계점:
논문 자체에서 명시된 한계점은 없음 (Abstract에선 언급되지 않음)
(제안된 모델의 잠재적 한계는, 훈련 데이터의 양과 품질에 따라 성능이 제한될 수 있으며, 특정 장르나 스타일의 댄스에 편향될 가능성)
👍