AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

Author

Haebom

저자

Yiheng Li, Zhuo Li, Ruibing Hou, Yingjie Chen, Hong Chang, Hao Liu, Shiguang Shan

💡 개요

본 연구는 다양한 조건(텍스트, 음성, 음악, 궤적 등)에 따라 인간의 움직임을 생성하는 문제를 다룹니다. 이를 위해 대규모의 고품질 다중 모달리티 정렬 데이터셋인 OmniHuMo를 구축하고, 이를 기반으로 하는 AnyMo라는 통합 프레임워크를 제안합니다. AnyMo는 잔차 FSQ 기반 모션 토크나이저와 확장 가능한 마스크드 모델링 트랜스포머를 결합하여, 임의의 모달리티 조합 하에서도 높은 품질의 움직임을 생성합니다.

🔑 시사점 및 한계

•

대규모 다중 모달리티 데이터셋의 중요성: OmniHuMo와 같은 대규모, 고품질의 정렬된 데이터셋 구축이 다양한 조건 기반 움직임 생성 연구의 발전에 필수적임을 보여줍니다.

•

통합된 다중 모달리티 프레임워크의 가능성: AnyMo는 단일 프레임워크로 다양한 모달리티를 활용하여 유연하고 높은 품질의 움직임 생성이 가능함을 입증합니다.

•

데이터 희소성과 모델 복잡성: 본 연구는 데이터셋 구축과 모델 설계에 상당한 노력을 기울였지만, 여전히 다양한 모달리티와 복잡한 상호작용을 다루기 위한 더 많은 데이터와 더욱 정교한 모델 구조가 필요할 수 있습니다.

PDF 보기

Made with Slashpage