Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

TokenMotion: Decoupled Motion Control via Token Disentanglement for Human-centric Video Generation

Created by
  • Haebom

저자

Ruineng Li, Daitao Xing, Huiming Sun, Yuanzhou Ha, Jinglin Shen, Chiuman Ho

개요

본 논문은 카메라 움직임과 인간의 포즈를 동시에 제어하는 인간 중심의 영상 생성에 대한 어려움을 해결하기 위해, DiT(Diffusion with Transformers) 기반의 새로운 비디오 확산 프레임워크인 TokenMotion을 제시합니다. TokenMotion은 카메라 궤적과 인간의 포즈를 시공간 토큰으로 표현하여 세밀한 제어를 가능하게 합니다. 특히, '분리 후 결합(decouple-and-fuse)' 전략과 인간 인지 동적 마스크를 사용하여 공간적, 시간적으로 변화하는 결합된 모션 신호를 효과적으로 처리합니다. 실험 결과, TokenMotion은 텍스트-영상 및 이미지-영상 생성 작업 모두에서 기존 최첨단 방법들을 능가하는 인간 중심 모션 제어 성능을 보여줍니다.

시사점, 한계점

시사점:
DiT 기반의 새로운 접근 방식을 통해 카메라 움직임과 인간 동작의 세밀한 제어를 가능하게 함.
'분리 후 결합' 전략과 인간 인지 동적 마스크를 통해 복잡한 시공간적 모션 신호를 효과적으로 처리.
텍스트-영상 및 이미지-영상 생성에서 기존 최첨단 모델을 능가하는 성능을 입증.
창의적인 영상 제작 분야에 중요한 발전을 가져올 가능성 제시.
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.
제안된 모델의 계산 비용 및 효율성에 대한 분석이 부족함.
다양한 환경이나 복잡한 상호작용에 대한 일반화 성능에 대한 추가적인 연구가 필요함.
👍