Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Yan là một khuôn khổ nền tảng bao gồm toàn bộ quy trình tạo video tương tác, từ mô phỏng, tạo và chỉnh sửa. Nó bao gồm ba mô-đun cốt lõi. Đối với mô phỏng cấp AAA, chúng tôi đã thiết kế một quy trình suy luận khử nhiễu cửa sổ dịch chuyển 3D-VAE nén cao, độ trễ thấp và bộ đệm KV-Cache để đạt được mô phỏng tương tác thời gian thực 1080P/60FPS. Đối với việc tạo đa phương thức, chúng tôi truyền kiến thức chuyên biệt về trò chơi vào một mô hình khuếch tán video đa phương thức (VDM) miền mở và sau đó giới thiệu một phương pháp phụ đề tự động hồi quy phân cấp, biến VDM thành một trình tạo video tương tác vô hạn, điều khiển hành động theo từng khung hình. Ngay cả khi lời nhắc văn bản và hình ảnh đến từ các miền khác nhau, mô hình vẫn thể hiện khả năng khái quát hóa mạnh mẽ, cho phép kết hợp và biên soạn linh hoạt các kiểu và cơ chế liên miền dựa trên lời nhắc của người dùng. Đối với chỉnh sửa đa hạt, chúng tôi đề xuất một mô hình lai tách biệt rõ ràng giữa mô phỏng cơ chế tương tác và kết xuất hình ảnh, cho phép chỉnh sửa tương tác dựa trên văn bản đối với nội dung video đa hạt. Bằng cách tích hợp các mô-đun này, Yan đưa việc tạo video tương tác vượt ra khỏi chức năng riêng lẻ thành mô hình tạo video tương tác toàn diện do AI điều khiển, mở đường cho thế hệ công cụ sáng tạo, phương tiện truyền thông và giải trí tiếp theo.
Takeaways, Limitations
•
Takeaways:
◦
Triển khai mô phỏng video tương tác chất lượng AAA ở chế độ thời gian thực 1080P/60FPS.
◦
Khả năng tạo video đa phương thức và kết hợp phong cách đa miền tận dụng kiến thức chuyên biệt về trò chơi.
◦
Cung cấp khả năng chỉnh sửa nội dung video đa hạt dựa trên văn bản.
◦
Giới thiệu mô hình mới trong sáng tạo video tương tác và gợi ý tiềm năng cho các công cụ sáng tạo thế hệ tiếp theo.
•
Limitations:
◦
Bài báo thiếu tài liệu tham khảo cụ thể về Limitations hoặc hướng nghiên cứu trong tương lai.
◦
Thiếu thông tin chi tiết về đánh giá hiệu suất mô hình (thiếu số liệu đánh giá định lượng và trình bày kết quả)
◦
Thiếu thông tin về dữ liệu đào tạo của mô hình và mức tiêu thụ tài nguyên.