Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HAVIR : Vision hiérarchique pour la reconstruction d'images à l'aide de la diffusion polyvalente guidée par CLIP

Created by
  • Haebom

Auteur

Shiyi Zhang, Dong Liang, Hairong Zheng, Yihang Zhou

Contour

Cet article porte sur l'étude de la reconstruction d'informations visuelles à partir de l'activité cérébrale. Des études sur le décodage d'images à l'aide de modèles génératifs utilisant l'IRMf ont été menées, mais la restitution précise de stimuli visuels très complexes s'est avérée difficile. Ceci est dû à la densité et à la diversité des éléments du stimulus, à sa structure spatiale élaborée et à la multiplicité des informations sémantiques. Pour résoudre ce problème, cet article propose le modèle HAVIR, qui comprend deux adaptateurs. L'adaptateur AutoKL transforme les voxels IRMf en un dictionnaire de diffusion latente capturant la structure topologique, et l'adaptateur CLIP transforme les voxels en textes et images CLIP contenant des informations sémantiques. Ces représentations complémentaires sont fusionnées par diffusion polyvalente pour générer l'image reconstruite finale. Pour extraire les informations sémantiques les plus importantes dans des scénarios complexes, l'adaptateur CLIP est entraîné à l'aide de légendes textuelles décrivant le stimulus visuel et des images sémantiques synthétisées avec ces légendes. Les résultats expérimentaux montrent que HAVIR reconstruit efficacement les caractéristiques structurelles et les informations sémantiques des stimuli visuels, même dans des scénarios complexes, et surpasse les modèles existants.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode pour reconstruire avec précision des stimuli visuels complexes à partir de données IRMf
Performances améliorées grâce à la fusion d'expression complémentaire via les adaptateurs AutoKL et CLIP
Restaure efficacement les caractéristiques structurelles et les informations sémantiques des informations visuelles complexes
A démontré des performances supérieures par rapport aux modèles existants
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du modèle HAVIR
Nécessité d'une évaluation des performances sur différents types de données IRMf
Une validation supplémentaire est nécessaire pour déterminer si cela correspond exactement à l’expérience visuelle réelle.
Il est nécessaire d'analyser la complexité informatique et l'efficacité du modèle
👍