Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Yume là một dự án nhằm mục đích tạo ra các thế giới tương tác, chân thực và động bằng hình ảnh, văn bản hoặc video. Người dùng có thể khám phá và điều khiển các thế giới này bằng thiết bị ngoại vi hoặc tín hiệu thần kinh. Trong bài báo này, chúng tôi trình bày một nguyên mẫu của Yume, tạo ra các thế giới động từ hình ảnh đầu vào và cho phép khám phá thế giới thông qua thao tác bàn phím. Để tạo ra thế giới video tương tác chất lượng cao, chúng tôi giới thiệu một khuôn khổ được thiết kế tốt bao gồm bốn thành phần chính: lượng tử hóa chuyển động camera, kiến trúc tạo video, bộ lấy mẫu nâng cao và tăng tốc mô hình. Các tính năng kỹ thuật chính bao gồm lượng tử hóa chuyển động camera để huấn luyện ổn định và nhập liệu bằng bàn phím thân thiện với người dùng, Bộ biến đổi khuếch tán video có mặt nạ (MVDT) với mô-đun bộ nhớ để tạo video vô hạn theo cách tự hồi quy, Cơ chế chống nhiễu (AAM) và Lấy mẫu du hành thời gian dựa trên Phương trình vi phân ngẫu nhiên (SDE) (TTS-SDE) không yêu cầu huấn luyện để có chất lượng hình ảnh tốt hơn và điều khiển chính xác hơn, và tăng tốc mô hình thông qua tối ưu hóa hiệp đồng của các cơ chế chưng cất và lưu trữ đối nghịch. Chúng tôi đã huấn luyện Yume bằng Sekai, một bộ dữ liệu khám phá thế giới chất lượng cao, và đạt được những kết quả đáng chú ý trong nhiều tình huống và ứng dụng khác nhau. Toàn bộ dữ liệu, cơ sở mã và trọng số mô hình đều có sẵn tại https://github.com/stdstu12/YUME , và Yume sẽ được cập nhật hàng tháng.