Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Neurones : l'émulation du cortex visuel humain améliore la fidélité et l'interprétabilité de la reconstruction IRMf-vidéo

Created by
  • Haebom

Auteur

Haonan Wang, Qixiang Zhang, Lehan Wang, Xuanqi Huang, Xiaomeng Li

Contour

Dans cet article, nous proposons NEURONS, un nouveau cadre pour la reconstruction vidéo à partir de données IRMf. Pour pallier la difficulté des méthodes existantes à capturer la dynamique spatio-temporelle, nous divisons l'apprentissage en quatre sous-tâches (segmentation d'objets saillants, reconnaissance de concepts, description de scènes et reconstruction de vidéos floues) inspirées de la structure hiérarchique du système visuel. Cela nous permet de capturer divers contenus vidéo et de reconstruire des vidéos à l'aide d'un modèle de diffusion texte-vidéo pré-entraîné. Les résultats expérimentaux montrent que notre cadre proposé améliore significativement la cohérence vidéo (26,6 %) et la précision sémantique (19,1 %) par rapport aux méthodes existantes, et démontre de fortes corrélations fonctionnelles avec le cortex visuel.

Takeaways, Limitations

Takeaways:
Amélioration significative des performances de reconstruction vidéo à l’aide de données IRMf.
Nous présentons une architecture de modèle efficace qui imite la structure hiérarchique du système visuel.
Potentiel accru pour les interfaces cerveau-ordinateur et les applications cliniques.
La reproductibilité a été obtenue grâce à des codes et des pondérations de modèles accessibles au public.
Limitations:
Des limitations peuvent encore exister en raison de la faible résolution des données IRMf.
Les performances peuvent être dégradées pour certains types de vidéos.
Parce qu’il repose sur un modèle texte-vidéo, ses limites peuvent affecter les performances de NEURONS.
👍