Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tách chuyển động khỏi hình thức: Tùy chỉnh chuyển động thông qua tùy chỉnh mô hình khuếch tán văn bản sang video

Created by
  • Haebom

Tác giả

Huijie Liu, Jingyun Wang, Shuai Ma, Jie Hu, Xiaoming Wei, Guoliang Kang

Phác thảo

Bài báo này đề cập đến việc tùy chỉnh chuyển động, tạo ra các video với các khái niệm chuyển động được chỉ định bởi một tập hợp các video clip có cùng khái niệm chuyển động bằng cách sử dụng mô hình khuếch tán (DM). Các nghiên cứu trước đây đã khám phá nhiều phương pháp khác nhau để biểu diễn và nhúng các khái niệm chuyển động vào các mô hình khuếch tán văn bản sang video được đào tạo trước quy mô lớn (ví dụ: học LoRA chuyển động và sử dụng dư lượng nhiễu tiềm ẩn). Tuy nhiên, các phương pháp này chắc chắn sẽ mã hóa sự xuất hiện của video tham chiếu, làm suy yếu khả năng tạo ra sự xuất hiện. Bài báo này tuân theo cách tiếp cận phổ biến là học LoRA chuyển động để mã hóa các khái niệm chuyển động, nhưng đề xuất hai chiến lược mới: tinh chỉnh sự chú ý theo thời gian (TAP) và đường cao tốc xuất hiện (AH) để cải thiện sự tách biệt hành động-xuất hiện. Trong TAP, chúng tôi giả định rằng các nhúng giá trị được đào tạo trước là các khối xây dựng đủ để tạo ra các chuyển động mới. Chúng tôi tái tạo các nhúng giá trị bằng cách tái tạo sự chú ý theo thời gian chỉ từ các LoRA chuyển động để tạo ra các chuyển động mới. Trong AH, chúng tôi thay đổi điểm bắt đầu của mỗi kết nối bỏ qua trong U-Net từ đầu ra của mỗi mô-đun chú ý theo thời gian thành đầu ra của mỗi mô-đun chú ý không gian. Kết quả thử nghiệm cho thấy phương pháp đề xuất có thể tạo ra video có giao diện phù hợp hơn với mô tả văn bản và chuyển động phù hợp hơn với video tham chiếu so với các nghiên cứu hiện có.

Takeaways, Limitations

Takeaways: Chúng tôi chứng minh rằng các chiến lược tinh chỉnh sự chú ý theo thời gian (TAP) và đường cao tốc xuất hiện (AH) đạt được sự tách biệt hành động-xuất hiện tốt hơn so với các phương pháp hiện có, cho phép tạo video với hình ảnh xuất hiện phù hợp với mô tả văn bản và hành động phù hợp với video tham chiếu. Điều này góp phần vào lĩnh vực tùy chỉnh chuyển động bằng mô hình khuếch tán.
Limitations: Hiệu quả của các chiến lược TAP và AH có thể bị giới hạn ở một số loại mô hình khuếch tán và tập dữ liệu nhất định. Cần có thêm các thử nghiệm trên phạm vi rộng hơn về mô hình khuếch tán và tập dữ liệu. Hơn nữa, cần đánh giá hiệu suất tổng quát hóa cho các video có chuyển động cực kỳ phức tạp hoặc đa dạng.
👍