Este artículo presenta CADAR, un novedoso enfoque neurosimbólico para la detección de ataques cognitivos en entornos de realidad aumentada (RA). CADAR utiliza un modelo de lenguaje visual (VLM) preentrenado para fusionar entradas multimodales de lenguaje visual y obtener una representación gráfica perceptual simbólica, que incorpora conocimiento previo, ponderaciones de importancia y correlaciones temporales. Posteriormente, detecta ataques cognitivos mediante inferencia estadística basada en filtros de partículas. A diferencia de los métodos existentes que se centran en las variaciones visuales, que se limitan al procesamiento a nivel de píxel o imagen y carecen de capacidades de inferencia semántica, o que dependen de VLM preentrenados, que son enfoques de caja negra con interpretabilidad limitada, CADAR combina la adaptabilidad de los VLM preentrenados con la interpretabilidad y el rigor de inferencia del filtrado de partículas. Los resultados experimentales en un conjunto de datos extendido de ataques cognitivos de RA demuestran una precisión hasta un 10,7 % superior a la de los modelos de vanguardia existentes en escenarios complejos de ataques de RA.