StyleMotif은 다양한 모달리티(모션, 텍스트, 이미지, 비디오, 오디오)의 콘텐츠와 스타일을 모두 조건으로 하여 모션을 생성하는 새로운 스타일화된 모션 잠재 확산 모델입니다. 기존의 다양한 모션 콘텐츠 생성이나 시퀀스에서 스타일 전이에 초점을 맞춘 접근 방식과 달리, StyleMotif는 다양한 콘텐츠에 걸쳐 모션을 매끄럽게 합성하는 동시에 다중 모달 입력으로부터 스타일 큐를 통합합니다. 이를 위해 스타일-콘텐츠 교차 융합 메커니즘을 도입하고 사전 훈련된 다중 모달 모델과 스타일 인코더를 정렬하여 생성된 모션이 현실감을 유지하면서 참조 스타일에 정확하게 포착되도록 합니다. 광범위한 실험을 통해 제시된 프레임워크가 스타일화된 모션 생성에서 기존 방법을 능가하며 다중 모달 모션 스타일화에 대한 새로운 기능을 보여주어 더욱 미묘한 모션 합성을 가능하게 함을 보여줍니다. 소스 코드와 사전 훈련된 모델은 수락 후 공개될 예정입니다.