Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

PropVG: Nền tảng trực quan dựa trên đề xuất đầu cuối với khả năng phân biệt đa chi tiết

Created by
  • Haebom

Tác giả

Ming Dai, Wenxuan Cheng, Jiedong Zhuang, Jiang-jiang Liu, Hongshen Zhao, Zhenhua Feng, Wankou Yang

Phác thảo

Bài báo này trình bày mô hình PropVG, một mô hình được đề xuất, khắc phục những hạn chế của các phương pháp hiện có vốn bỏ qua lợi ích của các mục tiêu tiềm ẩn. Xem xét các xu hướng gần đây trong nghiên cứu nền tảng trực quan, sử dụng mô hình tham chiếu trực tiếp đầu cuối hiệu quả thay vì phương pháp tiếp cận hai bước dựa trên đề xuất kém hiệu quả hiện có, bài báo này đề xuất PropVG để khắc phục những hạn chế của các phương pháp hiện có vốn bỏ qua lợi ích của các mục tiêu tiềm ẩn. PropVG là một khuôn khổ dựa trên đề xuất đầu cuối, tích hợp liền mạch việc tạo đề xuất đối tượng tiền cảnh và hiểu đối tượng tham chiếu mà không cần thêm bộ phát hiện. Nó tăng cường khả năng phân biệt mục tiêu đa hạt bằng cách giới thiệu mô-đun Chấm điểm Tham chiếu dựa trên Tương phản (CRS) sử dụng học tương phản ở cấp độ câu và từ, và mô-đun Phân biệt Mục tiêu Đa hạt (MTD) giúp cải thiện khả năng nhận dạng mục tiêu vắng mặt bằng cách tích hợp thông tin ở cấp độ đối tượng và ngữ nghĩa. Chúng tôi trình bày các kết quả thử nghiệm mở rộng chứng minh hiệu quả của PropVG trên các chuẩn mực gRefCOCO, Ref-ZOM, R-RefCOCO và RefCOCO. Mã và mô hình được công khai trên GitHub.

Takeaways, Limitations

Takeaways:
Chúng tôi giải quyết tình trạng kém hiệu quả của phương pháp hai bước truyền thống thông qua khuôn khổ đề xuất toàn diện.
Chúng tôi đã tích hợp khả năng tạo đề xuất đối tượng tiền cảnh và hiểu đối tượng tham chiếu mà không cần thêm bộ phát hiện.
Mô-đun CRS cải thiện khả năng hiểu và phân biệt các đối tượng tham chiếu thông qua phương pháp học tương phản ở cấp độ câu và từ.
Tỷ lệ nhận dạng các vật thể vắng mặt đã được cải thiện bằng cách tăng cường chức năng phân loại nhiều hạt thông qua mô-đun MTD.
Nó đã chứng minh được hiệu suất tuyệt vời trong nhiều tiêu chuẩn khác nhau.
Limitations:
Limitations được trình bày trong bài báo này không được đề cập rõ ràng. Các thí nghiệm hoặc phân tích bổ sung có thể gợi ý các hướng nghiên cứu trong tương lai (ví dụ: khả năng bị tổn thương trước các loại biểu diễn tham chiếu cụ thể, hiệu suất tổng quát hóa trên nhiều môi trường hình ảnh khác nhau, v.v.).
👍