Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Hướng dẫn nhanh chóng và nhận thức gần của con người để dự đoán HOT với tình trạng mất khớp khu vực

Created by
  • Haebom

Tác giả

Yuxiao Wang, Yu Lei, Zhenao Wei, Weiying Xue, Xinyu Jiang, Nan Zhuang, Qi Liu

Phác thảo

Trong bài báo này, chúng tôi đề xuất một khuôn khổ mới cho phát hiện tiếp xúc giữa người và vật (HOT), P3HOT. P3HOT kết hợp hướng dẫn nhanh và nhận dạng khoảng cách giữa người và vật để hướng sự chú ý của mạng đến các vùng liên quan dựa trên mối tương quan giữa hình ảnh và văn bản, đồng thời loại bỏ hiệu quả các vùng không mong đợi tương tác bằng các tham số có thể học được. Nó sử dụng thông tin độ sâu để giải quyết sự không chắc chắn về sự chồng chéo giữa người và vật trong góc nhìn 2D và cung cấp góc nhìn gần như 3D, đồng thời giới thiệu một mất mát khớp nối theo vùng (RJLoss) để loại bỏ các loại bất thường trong cùng một vùng. Ngoài ra, chúng tôi đề xuất một thước đo đánh giá mới, "AD-Acc.", để khắc phục những thiếu sót của các phương pháp hiện có. Kết quả thử nghiệm cho thấy nó đạt được hiệu suất tiên tiến nhất ở cả bốn thước đo trên hai tập dữ liệu chuẩn. Đặc biệt, trên tập dữ liệu HOT-Annotated, nó đạt được sự cải thiện lần lượt là 0,7, 2,0, 1,6 và 11,0 trong các thước đo SC-Acc., mIoU, wIoU và AD-Acc. Mã nguồn có thể được tìm thấy tại https://github.com/YuxiaoWang-AI/P3HOT .

Takeaways, Limitations

Takeaways:
Một khuôn khổ phát hiện HOT mới P3HOT kết hợp hướng dẫn nhanh chóng và nhận dạng khoảng cách của con người được trình bày
Khắc phục những hạn chế 2D và cung cấp góc nhìn gần giống 3D bằng cách sử dụng thông tin chiều sâu
Sự ức chế thể loại bất thường thông qua mất khớp theo miền (RJLoss)
Chỉ số đánh giá mới AD-Acc. Hiệu suất được đề xuất và cải thiện so với các phương pháp hiện có
ĐạT được hiệu suất tiên tiến trên nhiều chỉ số
Limitations:
Cần có sự xác nhận bổ sung về hiệu suất tổng quát của phương pháp đề xuất.
Cần đánh giá độ tin cậy cho nhiều loại hình ảnh và đối tượng khác nhau
Cần kiểm tra khả năng quá khớp trên các tập dữ liệu cụ thể
👍