Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

MOGO: Bộ biến đổi nhân quả phân cấp lượng tử dư thừa để tạo chuyển động của con người 3D chất lượng cao và thời gian thực

Created by
  • Haebom

Tác giả

Dongjie Fu, Tengjiao Sun, Peng Cheng Fang, Xiaohao Cai, Hansung Kim

Phác thảo

Trong bài báo này, chúng tôi đề xuất MOGO (Tạo chuyển động với một lần truyền), một khuôn khổ tự hồi quy mới cho việc tạo chuyển động 3D hiệu quả, thời gian thực. MOGO bao gồm hai thành phần chính. Đầu tiên, mô-đun Lượng tử hóa vectơ dư thích ứng tỷ lệ chuyển động (MoSA-VQ), phân rã theo thứ bậc các chuỗi chuyển động bằng cách sử dụng tỷ lệ có thể học được để tạo ra các biểu diễn ngắn gọn nhưng biểu cảm. Thứ hai, Bộ chuyển đổi nhân quả phân cấp lượng tử dư (RQHC-Transformer), tạo ra các mã thông báo chuyển động nhiều lớp trong một lần truyền tiếp, giảm đáng kể độ trễ suy luận. Chúng tôi tiếp tục cải thiện khả năng giải mã chuyển động được điều khiển bằng văn bản bằng cách thêm cơ chế căn chỉnh có điều kiện văn bản. Các thử nghiệm mở rộng trên các tập dữ liệu chuẩn như HumanML3D, KIT-ML và CMP chứng minh rằng MOGO đạt được chất lượng tạo có tính cạnh tranh hoặc vượt trội so với các phương pháp dựa trên Transformer hiện đại, đồng thời mang lại những cải tiến đáng kể về hiệu suất thời gian thực, tạo luồng và khái quát hóa trong cài đặt zero-shot.

Takeaways, Limitations

Takeaways:
Đề Xuất MOGO, một khuôn khổ mới cho việc tạo chuyển động 3D hiệu quả theo thời gian thực.
Tạo ra các biểu diễn chuyển động ngắn gọn và biểu cảm bằng mô-đun MoSA-VQ.
Giảm độ trễ suy luận và tạo mã thông báo chuyển động nhiều lớp trong một lần chuyển tiếp duy nhất bằng cách sử dụng RQHC-Transformer.
Cải thiện giải mã chuyển động dưới sự kiểm soát của văn bản thông qua cơ chế căn chỉnh có điều kiện văn bản.
ĐạT được chất lượng tạo ra sản phẩm cạnh tranh và cải thiện hiệu suất thời gian thực, tạo luồng và hiệu suất zero-shot so với các phương pháp hiện đại.
Limitations:
Bài báo không đề cập cụ thể đến Limitations. Cần có thêm các thí nghiệm và phân tích để làm sáng tỏ Limitations.
Hiệu suất của MOGO có thể bị ảnh hưởng bởi một số tập dữ liệu nhất định. Cần có thêm các thử nghiệm trên nhiều tập dữ liệu khác nhau.
Phân tích định lượng về cải thiện hiệu suất theo thời gian thực có thể còn thiếu. Cần phân tích hiệu suất chi tiết hơn.
👍