Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
Hulk là mô hình khái quát hóa đa phương thức lấy con người làm trung tâm đầu tiên có khả năng xử lý nhiều nhiệm vụ nhận thức lấy con người làm trung tâm, bao gồm thị giác 2D và 3D, dựa trên bộ xương và nhiệm vụ ngôn ngữ thị giác. Các mô hình lấy con người làm trung tâm hiện có có những hạn chế, chẳng hạn như không có khả năng xử lý các nhiệm vụ ngôn ngữ thị giác và 3D và cần phải tinh chỉnh từng nhiệm vụ cụ thể. Để giải quyết những thách thức này, Hulk tích hợp nhiều đầu cụ thể cho từng nhiệm vụ thành hai đầu chung: một đầu dành cho các biểu diễn rời rạc (ví dụ: ngôn ngữ) và một đầu dành cho các biểu diễn liên tục (ví dụ: tọa độ). Biểu diễn thống nhất này cho phép Hulk xử lý nhiều nhiệm vụ lấy con người làm trung tâm với phép biến đổi phương thức và tích hợp kiến thức trên nhiều loại nhiệm vụ. Một đánh giá toàn diện trên 12 điểm chuẩn bao gồm tám nhiệm vụ lấy con người làm trung tâm chứng minh tính ưu việt của phương pháp được đề xuất, đạt được hiệu suất tiên tiến trên 11 điểm chuẩn. Mã có sẵn tại https://github.com/OpenGVLab/Hulk .
Chúng tôi trình bày mô hình đa phương thức đầu tiên có khả năng xử lý nhiều nhiệm vụ nhận thức lấy con người làm trung tâm (tầm nhìn 2D/3D, dựa trên bộ xương và ngôn ngữ thị giác) mà không cần tinh chỉnh từng nhiệm vụ cụ thể.
◦
Biểu diễn thống nhất thông qua hai đầu chung cho phép tích hợp kiến thức và chuyển đổi phương thức trên nhiều nhiệm vụ khác nhau.
◦
ĐạT được hiệu suất tiên tiến nhất trong 11 trên 12 tiêu chuẩn.
◦
Mở rộng nghiên cứu và tăng khả năng sử dụng thông qua việc công bố mã nguồn mở.
•
Limitations:
◦
Xác minh hiệu suất tổng quát là cần thiết cho các nhiệm vụ khác ngoài các tiêu chuẩn hiện đang được trình bày.
◦
Cần phải phân tích sâu hơn về quy mô và chi phí tính toán của mô hình.
◦
Cần nghiên cứu thêm để tối ưu hóa hiệu suất cho các nhiệm vụ cụ thể.