Bài báo này trình bày CADAR, một phương pháp tiếp cận thần kinh tượng trưng mới để phát hiện các cuộc tấn công nhận thức trong môi trường thực tế tăng cường (AR). CADAR sử dụng mô hình ngôn ngữ thị giác được đào tạo trước (VLM) để hợp nhất các đầu vào ngôn ngữ thị giác đa phương thức nhằm thu được biểu diễn đồ thị nhận thức tượng trưng, kết hợp kiến thức trước, trọng số quan trọng và tương quan thời gian. Sau đó, nó phát hiện các cuộc tấn công nhận thức bằng cách sử dụng suy luận thống kê dựa trên bộ lọc hạt. Không giống như các phương pháp hiện có tập trung vào các biến thể thị giác, bị giới hạn ở xử lý ở cấp độ pixel hoặc hình ảnh và thiếu khả năng suy luận ngữ nghĩa, hoặc dựa vào VLM được đào tạo trước, là các phương pháp hộp đen có khả năng diễn giải hạn chế, CADAR kết hợp khả năng thích ứng của VLM được đào tạo trước với khả năng diễn giải và độ chính xác suy luận của lọc hạt. Kết quả thử nghiệm trên bộ dữ liệu tấn công nhận thức AR mở rộng chứng minh độ chính xác được cải thiện tới 10,7% so với các mô hình tiên tiến hiện có trong các tình huống tấn công AR đầy thách thức.