Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

UST-SSM: Mô hình không gian trạng thái không gian-thời gian thống nhất cho mô hình hóa video đám mây điểm

Created by
  • Haebom

Tác giả

Peiming Li, Ziyi Wang, Yulin Yuan, Hong Liu, Xiangming Meng, Junsong Yuan, Mengyuan Liu

Phác thảo

Bài báo này đề xuất Mô hình Không gian Trạng thái Thời gian Thống nhất (UST-SSM) để giải quyết vấn đề hỗn loạn không gian thời gian trong video đám mây điểm. UST-SSM mở rộng Mô hình Không gian Trạng thái Chọn lọc (SSM) sang video đám mây điểm và giới thiệu kỹ thuật Quét Chọn lọc Không gian Thời gian (STSS), kỹ thuật này tái tạo các điểm hỗn loạn thành các chuỗi được nhận dạng ngữ nghĩa thông qua phân cụm dựa trên dấu nhắc. Hơn nữa, nó sử dụng Tổng hợp Cấu trúc Không gian Thời gian (STSA) để bù đắp cho thông tin hình học và chuyển động 4D bị thiếu, và đề xuất Lấy mẫu Tương tác Thời gian (TIS) để tăng cường các phụ thuộc thời gian chi tiết bằng cách tận dụng các khung không neo và mở rộng các trường tiếp nhận. Kết quả thử nghiệm trên các tập dữ liệu MSR-Action3D, NTU RGB+D và Synthia 4D chứng minh tính hiệu quả của phương pháp được đề xuất. Mã nguồn được công khai.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày một mô hình hiệu quả để nhận dạng hành động của con người một cách tinh tế và liên tục từ video đám mây điểm.
Chúng tôi đã cải thiện hiệu suất của SSM bằng cách giải quyết vấn đề rối loạn không gian-thời gian.
Sử dụng hiệu quả thông tin không gian thời gian của video đám mây điểm bằng các kỹ thuật STSS, STSA và TIS.
Chúng tôi đã xác minh hiệu suất của nó thông qua các thử nghiệm trên nhiều tập dữ liệu khác nhau.
Khả năng tái tạo đạt được thông qua việc công bố mã nguồn.
Limitations:
Hiện vẫn chưa có phân tích chi tiết về độ phức tạp và hiệu quả tính toán của phương pháp đề xuất.
Cần đánh giá thêm về hiệu suất tổng quát trên nhiều loại dữ liệu video đám mây điểm khác nhau.
Cần có phân tích độ nhạy về hiệu suất của cụm dựa trên lời nhắc.
Cần nghiên cứu thêm để xác định khả năng ứng dụng của nó trong thế giới thực.
👍