본 논문은 카메라 움직임과 인간의 포즈를 동시에 제어하는 인간 중심의 영상 생성에 대한 어려움을 해결하기 위해, DiT(Diffusion with Transformers) 기반의 새로운 비디오 확산 프레임워크인 TokenMotion을 제시합니다. TokenMotion은 카메라 궤적과 인간의 포즈를 시공간 토큰으로 표현하여 세밀한 제어를 가능하게 합니다. 특히, '분리 후 결합(decouple-and-fuse)' 전략과 인간 인지 동적 마스크를 사용하여 공간적, 시간적으로 변화하는 결합된 모션 신호를 효과적으로 처리합니다. 실험 결과, TokenMotion은 텍스트-영상 및 이미지-영상 생성 작업 모두에서 기존 최첨단 방법들을 능가하는 인간 중심 모션 제어 성능을 보여줍니다.