Bài báo này đề cập đến việc tùy chỉnh chuyển động, tạo ra các video với các khái niệm chuyển động được chỉ định bởi một tập hợp các video clip có cùng khái niệm chuyển động bằng cách sử dụng mô hình khuếch tán (DM). Các nghiên cứu trước đây đã khám phá nhiều phương pháp khác nhau để biểu diễn và nhúng các khái niệm chuyển động vào các mô hình khuếch tán văn bản sang video được đào tạo trước quy mô lớn (ví dụ: học LoRA chuyển động và sử dụng dư lượng nhiễu tiềm ẩn). Tuy nhiên, các phương pháp này chắc chắn sẽ mã hóa sự xuất hiện của video tham chiếu, làm suy yếu khả năng tạo ra sự xuất hiện. Bài báo này tuân theo cách tiếp cận phổ biến là học LoRA chuyển động để mã hóa các khái niệm chuyển động, nhưng đề xuất hai chiến lược mới: tinh chỉnh sự chú ý theo thời gian (TAP) và đường cao tốc xuất hiện (AH) để cải thiện sự tách biệt hành động-xuất hiện. Trong TAP, chúng tôi giả định rằng các nhúng giá trị được đào tạo trước là các khối xây dựng đủ để tạo ra các chuyển động mới. Chúng tôi tái tạo các nhúng giá trị bằng cách tái tạo sự chú ý theo thời gian chỉ từ các LoRA chuyển động để tạo ra các chuyển động mới. Trong AH, chúng tôi thay đổi điểm bắt đầu của mỗi kết nối bỏ qua trong U-Net từ đầu ra của mỗi mô-đun chú ý theo thời gian thành đầu ra của mỗi mô-đun chú ý không gian. Kết quả thử nghiệm cho thấy phương pháp đề xuất có thể tạo ra video có giao diện phù hợp hơn với mô tả văn bản và chuyển động phù hợp hơn với video tham chiếu so với các nghiên cứu hiện có.