Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Un cadre neurosymbolique pour la détection interprétable des attaques cognitives en réalité augmentée

Created by
  • Haebom

Auteur

Rongqian Chen, Allison Andreyev, Yanming Xiu, Mahdi Imani, Bin Li, Maria Gorlatova, Gang Tan, Tian Lan

Contour

Cet article présente CADAR, une nouvelle approche neurosymbolique pour la détection des attaques cognitives en réalité augmentée (RA). CADAR utilise un modèle de langage visuel (MLV) pré-entraîné pour fusionner des entrées multimodales de langage visuel afin d'obtenir une représentation graphique perceptive symbolique, intégrant les connaissances préalables, les pondérations d'importance et les corrélations temporelles. Il détecte ensuite les attaques cognitives grâce à une inférence statistique basée sur un filtre particulaire. Contrairement aux méthodes existantes qui se concentrent sur les variations visuelles, qui se limitent au traitement au niveau du pixel ou de l'image et manquent de capacités d'inférence sémantique, ou qui s'appuient sur des MLV pré-entraînés, qui sont des approches boîte noire à l'interprétabilité limitée, CADAR combine l'adaptabilité des MLV pré-entraînés avec l'interprétabilité et la rigueur d'inférence du filtrage particulaire. Les résultats expérimentaux sur un ensemble étendu de données d'attaques cognitives en RA démontrent une précision jusqu'à 10,7 % supérieure à celle des modèles de pointe existants dans des scénarios d'attaque en RA complexes.

Takeaways, Limitations

Takeaways:
Nous avons amélioré la précision et l’interprétabilité de la détection des attaques cognitives AR en utilisant une approche par symboles neuronaux.
Nous combinons avec succès l'adaptabilité des VLM pré-entraînés avec l'interprétabilité et la rigueur d'inférence du filtrage de particules.
Il s’agit d’une avancée significative dans le domaine de la détection d’attaques cognitives AR, atteignant jusqu’à 10,7 % de précision améliorée par rapport aux méthodes existantes.
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation de la méthode proposée. Il est nécessaire de déterminer si les améliorations de performances obtenues sur un ensemble de données spécifique sont maintenues sur d'autres ensembles de données.
Il existe une dépendance aux VLM pré-entraînés, ce qui peut refléter directement les limites des VLM.
Le coût de calcul des filtres à particules peut ne pas être adapté aux applications en temps réel.
Il est nécessaire d’évaluer davantage les performances de détection contre différents types d’attaques cognitives AR.
👍