KinMo는 기존 인간 모션 합성 프레임워크의 한계인 모달리티 간 차이를 해결하기 위해 제안된 통합 프레임워크입니다. 전역적인 동작 설명(예: "달리기") 대신, 운동 그룹의 움직임과 상호작용을 포함하는 계층적이고 설명 가능한 모션 표현을 사용합니다. 자동화된 주석 파이프라인을 통해 고품질의 세분화된 설명을 생성하여 KinMo 데이터셋을 구축하고, 계층적 텍스트-모션 정렬을 통해 공간적 이해도를 향상시켜 더욱 정교한 모션 생성 및 편집 기능을 제공합니다. 실험 결과, KinMo는 향상된 텍스트-모션 검색 성능과 더욱 세분화된 모션 생성 및 편집 기능을 통해 모션 이해를 크게 향상시키는 것으로 나타났습니다.