RoPECraft는 확산 트랜스포머를 위한 학습이 필요 없는 비디오 모션 전이 기법으로, 회전 위치 임베딩(RoPE)만 수정하여 동작합니다. 먼저 참조 비디오에서 밀집 광학 흐름을 추출하고, 결과 모션 오프셋을 사용하여 RoPE의 복소 지수 텐서를 왜곡하여 모션을 생성 과정에 효과적으로 인코딩합니다. 그런 다음 흐름 일치 목표를 사용하여 예측된 속도와 대상 속도 간의 궤적 정렬을 통해 잡음 제거 단계 동안 이러한 임베딩을 추가로 최적화합니다. 출력이 텍스트 프롬프트에 충실하고 중복 생성을 방지하기 위해 참조 비디오의 푸리에 변환의 위상 구성 요소를 기반으로 하는 규제 항을 통합하여 고주파 아티팩트를 억제하기 위해 위상 각도를 매끄러운 다양체에 투영합니다. 벤치마크 실험 결과 RoPECraft는 정성적 및 정량적으로 최근에 발표된 모든 방법을 능가하는 것으로 나타났습니다.