Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Một khuôn khổ thần kinh tượng trưng cho việc phát hiện tấn công nhận thức có thể diễn giải trong thực tế tăng cường

Created by
  • Haebom

Tác giả

Rongqian Chen, Allison Andreyev, Yanming Xiu, Mahdi Imani, Bin Li, Maria Gorlatova, Gang Tan, Tian Lan

Phác thảo

Bài báo này trình bày CADAR, một phương pháp tiếp cận thần kinh tượng trưng mới để phát hiện các cuộc tấn công nhận thức trong môi trường thực tế tăng cường (AR). CADAR sử dụng mô hình ngôn ngữ thị giác được đào tạo trước (VLM) để hợp nhất các đầu vào ngôn ngữ thị giác đa phương thức nhằm thu được biểu diễn đồ thị nhận thức tượng trưng, kết hợp kiến thức trước, trọng số quan trọng và tương quan thời gian. Sau đó, nó phát hiện các cuộc tấn công nhận thức bằng cách sử dụng suy luận thống kê dựa trên bộ lọc hạt. Không giống như các phương pháp hiện có tập trung vào các biến thể thị giác, bị giới hạn ở xử lý ở cấp độ pixel hoặc hình ảnh và thiếu khả năng suy luận ngữ nghĩa, hoặc dựa vào VLM được đào tạo trước, là các phương pháp hộp đen có khả năng diễn giải hạn chế, CADAR kết hợp khả năng thích ứng của VLM được đào tạo trước với khả năng diễn giải và độ chính xác suy luận của lọc hạt. Kết quả thử nghiệm trên bộ dữ liệu tấn công nhận thức AR mở rộng chứng minh độ chính xác được cải thiện tới 10,7% so với các mô hình tiên tiến hiện có trong các tình huống tấn công AR đầy thách thức.

Takeaways, Limitations

Takeaways:
Chúng tôi đã cải thiện độ chính xác và khả năng diễn giải của việc phát hiện tấn công nhận thức AR bằng cách sử dụng phương pháp biểu tượng thần kinh.
Chúng tôi kết hợp thành công khả năng thích ứng của VLM được đào tạo trước với khả năng diễn giải và suy luận chặt chẽ của quá trình lọc hạt.
ĐâY là bước tiến đáng kể trong lĩnh vực phát hiện tấn công nhận thức AR, đạt độ chính xác cao hơn tới 10,7% so với các phương pháp hiện có.
Limitations:
Cần nghiên cứu thêm để xác định hiệu suất tổng quát hóa của phương pháp đề xuất. Cần xác định xem những cải thiện về hiệu suất đạt được trên một tập dữ liệu cụ thể có được duy trì trên các tập dữ liệu khác hay không.
Có sự phụ thuộc vào VLM được đào tạo trước, điều này có thể phản ánh trực tiếp những hạn chế của VLM.
Chi phí tính toán của bộ lọc hạt có thể không phù hợp với các ứng dụng thời gian thực.
Cần phải đánh giá thêm hiệu suất phát hiện các loại tấn công nhận thức AR khác nhau.
👍