Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

DisCoRD: Từ mã thông báo rời rạc đến chuyển động liên tục thông qua giải mã dòng chỉnh lưu

Created by
  • Haebom

Tác giả

Jungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

Phác thảo

Bài báo này trình bày một phương pháp mới, Giải mã Token Rời rạc thành Chuyển động Liên tục thông qua Giải mã Dòng Chỉnh lưu (DisCoRD). Được thiết kế để giải quyết sự khác biệt giữa biểu diễn chuyển động rời rạc và liên tục, phương pháp này sử dụng dòng chỉnh lưu để giải mã các token chuyển động rời rạc thành không gian chuyển động thô liên tục. Để giải quyết vấn đề hạn chế về khả năng biểu đạt và nhiễu ở cấp độ khung hình của các phương pháp tạo rời rạc hiện có, cũng như khó khăn của các phương pháp tiếp cận liên tục trong việc tuân thủ các tín hiệu có điều kiện, chúng tôi cấu trúc giải mã token như một tác vụ tạo có điều kiện để nắm bắt các chuyển động tinh tế và tạo ra chuyển động mượt mà, tự nhiên hơn. Chúng tôi nâng cao tính tự nhiên trong khi vẫn duy trì độ trung thực với các tín hiệu có điều kiện trong nhiều cài đặt khác nhau, đạt được hiệu suất tiên tiến (FID lần lượt là 0,032 và 0,169) trên các tập dữ liệu HumanML3D và KIT-ML.

Takeaways, Limitations

Takeaways:
Nó đặt ra một tiêu chuẩn mới cho việc tạo ra chuyển động của con người bằng cách kết hợp hiệu quả của các biểu diễn rời rạc với tính hiện thực của các biểu diễn liên tục.
Các kỹ thuật giải mã mã thông báo sử dụng luồng chỉnh lưu tương thích với nhiều khuôn khổ rời rạc khác nhau.
Chúng tôi chứng minh tính ưu việt của phương pháp này bằng cách đạt được hiệu suất tiên tiến trên các tập dữ liệu HumanML3D và KIT-ML.
Nó cho phép tạo ra chuyển động tự nhiên và mượt mà hơn.
Limitations:
Cần nghiên cứu thêm để đánh giá hiệu suất tổng quát của phương pháp được trình bày trong bài báo này.
Cần phải đánh giá hiệu suất trên các tập dữ liệu chuyển động khác.
Chi phí tính toán của dòng chảy tĩnh có thể cao.
Cần phải xác nhận thêm về khả năng áp dụng của nó đối với các tập dữ liệu rất lớn.
👍