Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

ÁC quỷ nằm trong sự mơ hồ: Xem xét lại nhận dạng tình huống với học tập đa nhãn tích cực đơn lẻ

Created by
  • Haebom

Tác giả

Yiming Lin, Yuchen Niu, Shang Wang, Kaizhu Huang, Qiufeng Wang, Xiao-Bo Jin

Phác thảo

Bài báo này tập trung vào nhiệm vụ Nhận dạng Cảnh (Scene Recognition - SR) trong thị giác máy tính, trích xuất các tóm tắt ngữ nghĩa có cấu trúc từ hình ảnh. Không giống như các phương pháp SR hiện có, vốn coi phân loại động từ là một bài toán nhãn đơn, bài báo này đề cập đến sự mơ hồ khi một hình ảnh duy nhất có thể được mô tả bằng nhiều loại động từ. Để giải quyết vấn đề này, chúng tôi định nghĩa lại phân loại động từ là một bài toán đa nhãn, cụ thể là bài toán Học Đa Nhãn Tích Cực Đơn (SPMLL). Trước những thách thức trong việc đạt được chú thích đa nhãn hoàn chỉnh cho các tập dữ liệu quy mô lớn, chúng tôi phát triển Graph Enhanced Verb Multilayer Perceptron (GE-VerbMLP), sử dụng mạng nơ-ron đồ thị để nắm bắt các tương quan nhãn và tối ưu hóa ranh giới quyết định thông qua huấn luyện đối kháng. Các thí nghiệm mở rộng trên các tập dữ liệu thực tế chứng minh rằng phương pháp được đề xuất đạt được hơn 3% cải thiện về Độ chính xác Trung bình Trung bình (MAP) trong khi vẫn duy trì khả năng cạnh tranh trong các chỉ số độ chính xác top 1 và top 5 thông thường. Hơn nữa, chúng tôi trình bày một chuẩn mực đánh giá đa nhãn toàn diện để đánh giá hiệu suất mô hình một cách công bằng trong các thiết lập đa nhãn.

Takeaways, Limitations

Takeaways:
Chúng tôi trình bày tầm quan trọng của phân loại động từ đa nhãn khi xem xét sự mơ hồ của hình ảnh và đề xuất một quan điểm mới gọi là học đa nhãn đơn dương (SPMLL).
Chúng tôi đã đạt được cải tiến về hiệu suất trong các vấn đề phân loại động từ đa nhãn bằng cách sử dụng mô hình GE-VerbMLP (cải thiện MAP hơn 3%).
Chúng tôi cung cấp chuẩn đánh giá mới cho các thiết lập nhiều nhãn.
Limitations:
Phương pháp SPMLL được đề xuất giả định rằng việc đạt được chú thích đa nhãn hoàn chỉnh trên các tập dữ liệu quy mô lớn là rất khó khăn. Khó khăn này trong việc chú thích dữ liệu vẫn có thể hạn chế ứng dụng thực tế của nó.
Sự cải thiện hiệu suất của mô hình GE-VerbMLP có thể chỉ giới hạn ở một tập dữ liệu cụ thể và cần nghiên cứu thêm để xác định hiệu suất tổng quát của mô hình này trên các tập dữ liệu hoặc tình huống khác.
Cần phải xác nhận thêm tính tổng quát và tính linh hoạt của chuẩn mực đánh giá được đề xuất.
👍