Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Phát hiện điểm chính của con người tự giám sát theo hướng dẫn sâu thông qua chưng cất đa phương thức

Created by
  • Haebom

Tác giả

Aman Anand, Elyas Rashno, Amir Eskandari, Farhana Zulkernine

Phác thảo

Các phương pháp phát hiện điểm chính không giám sát hiện có áp dụng các phép biến đổi nhân tạo, chẳng hạn như che giấu các phần đáng kể của hình ảnh hoặc sử dụng tái tạo hình ảnh gốc làm mục tiêu học tập. Tuy nhiên, các phương pháp này thiếu thông tin về độ sâu và thường phát hiện các điểm chính ở chế độ nền. Để giải quyết vấn đề này, chúng tôi đề xuất Distill-DKP, một khuôn khổ chưng cất kiến thức đa mô hình mới sử dụng bản đồ độ sâu và hình ảnh RGB để phát hiện các điểm chính theo cách tự giám sát. Trong quá trình huấn luyện, Distill-DKP trích xuất kiến thức ở cấp độ nhúng từ mô hình giáo viên theo độ sâu để hướng dẫn mô hình học sinh dựa trên hình ảnh, hạn chế suy luận vào mô hình học sinh. Kết quả thực nghiệm chứng minh rằng Distill-DKP vượt trội đáng kể so với các phương pháp học không giám sát hiện có, giảm lỗi L2 trung bình 47,15% trên tập dữ liệu Human3.6M, giảm lỗi trung bình 5,67% trên tập dữ liệu Taichi và cải thiện độ chính xác của điểm chính 1,3% trên tập dữ liệu DeepFashion. Một nghiên cứu cắt bỏ chi tiết chứng minh độ nhạy của chưng cất kiến thức trên các lớp khác nhau của mạng.

Takeaways, Limitations

Takeaways:
Chúng tôi chứng minh rằng việc sử dụng thông tin độ sâu có thể cải thiện đáng kể độ chính xác của việc phát hiện điểm chính không giám sát.
Chúng tôi trình bày một phương pháp chuyển giao kiến thức hiệu quả từ mô hình giáo viên sang mô hình học sinh thông qua khuôn khổ chắt lọc kiến thức đa phương thức.
ĐạT hiệu suất vượt trội so với các phương pháp hiện có trên các tập dữ liệu Human3.6M, Taichi và DeepFashion.
Limitations:
Cần nghiên cứu thêm về hiệu suất tổng quát của phương pháp đề xuất.
ĐáNh giá hiệu suất là cần thiết cho nhiều loại dữ liệu hình ảnh khác nhau.
Cần nghiên cứu thêm về các lớp tối ưu và thiết lập siêu tham số để chưng cất kiến thức.
👍