Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Yume: Mô hình tạo thế giới tương tác

Created by
  • Haebom

Tác giả

Xiaofeng Mao, Shaoheng Lin, Zhen Li, Chuanhao Li, Wenshuo Peng, Tong He, Jiangmiao Pang, Mingmin Chi, Yu Qiao, Kaipeng Zhang

Phác thảo

Yume là một dự án nhằm mục đích tạo ra các thế giới tương tác, chân thực và động bằng hình ảnh, văn bản hoặc video. Người dùng có thể khám phá và điều khiển các thế giới này bằng thiết bị ngoại vi hoặc tín hiệu thần kinh. Trong bài báo này, chúng tôi trình bày một nguyên mẫu của Yume, tạo ra các thế giới động từ hình ảnh đầu vào và cho phép khám phá thế giới thông qua thao tác bàn phím. Để tạo ra thế giới video tương tác chất lượng cao, chúng tôi giới thiệu một khuôn khổ được thiết kế tốt bao gồm bốn thành phần chính: lượng tử hóa chuyển động camera, kiến trúc tạo video, bộ lấy mẫu nâng cao và tăng tốc mô hình. Các tính năng kỹ thuật chính bao gồm lượng tử hóa chuyển động camera để huấn luyện ổn định và nhập liệu bằng bàn phím thân thiện với người dùng, Bộ biến đổi khuếch tán video có mặt nạ (MVDT) với mô-đun bộ nhớ để tạo video vô hạn theo cách tự hồi quy, Cơ chế chống nhiễu (AAM) và Lấy mẫu du hành thời gian dựa trên Phương trình vi phân ngẫu nhiên (SDE) (TTS-SDE) không yêu cầu huấn luyện để có chất lượng hình ảnh tốt hơn và điều khiển chính xác hơn, và tăng tốc mô hình thông qua tối ưu hóa hiệp đồng của các cơ chế chưng cất và lưu trữ đối nghịch. Chúng tôi đã huấn luyện Yume bằng Sekai, một bộ dữ liệu khám phá thế giới chất lượng cao, và đạt được những kết quả đáng chú ý trong nhiều tình huống và ứng dụng khác nhau. Toàn bộ dữ liệu, cơ sở mã và trọng số mô hình đều có sẵn tại https://github.com/stdstu12/YUME , và Yume sẽ được cập nhật hàng tháng.

Takeaways, Limitations

Takeaways:
Trình bày công nghệ để tạo ra thế giới ảo tương tác và chân thực bằng hình ảnh, văn bản và video
Khám phá thế giới trực quan thông qua đầu vào bàn phím
Tạo video chất lượng cao và kiểm soát chính xác thông qua các công nghệ tiên tiến như MVDT, AAM và TTS-SDE
ÁP dụng các kỹ thuật tối ưu hóa hiệu quả để tăng tốc mô hình
ĐóNg góp vào nghiên cứu và phát triển bằng cách phát hành dưới dạng mã nguồn mở
Limitations:
Phiên bản hiện tại chỉ dựa vào đầu vào bàn phím và khả năng điều khiển tín hiệu ngoại vi hoặc thần kinh vẫn chưa được triển khai.
ĐâY là phiên bản beta và cần được phát triển thêm trước khi triển khai đầy đủ chức năng.
Thiếu mô tả chi tiết về tập dữ liệu Sekai
Thiếu sự xác thực về sự suy giảm hiệu suất hoặc các vấn đề về tính ổn định có thể xảy ra khi sử dụng trong thời gian dài.
👍