Cet article porte sur l'étude de la reconstruction d'informations visuelles à partir de l'activité cérébrale. Des études sur le décodage d'images à l'aide de modèles génératifs utilisant l'IRMf ont été menées, mais la restitution précise de stimuli visuels très complexes s'est avérée difficile. Ceci est dû à la densité et à la diversité des éléments du stimulus, à sa structure spatiale élaborée et à la multiplicité des informations sémantiques. Pour résoudre ce problème, cet article propose le modèle HAVIR, qui comprend deux adaptateurs. L'adaptateur AutoKL transforme les voxels IRMf en un dictionnaire de diffusion latente capturant la structure topologique, et l'adaptateur CLIP transforme les voxels en textes et images CLIP contenant des informations sémantiques. Ces représentations complémentaires sont fusionnées par diffusion polyvalente pour générer l'image reconstruite finale. Pour extraire les informations sémantiques les plus importantes dans des scénarios complexes, l'adaptateur CLIP est entraîné à l'aide de légendes textuelles décrivant le stimulus visuel et des images sémantiques synthétisées avec ces légendes. Les résultats expérimentaux montrent que HAVIR reconstruit efficacement les caractéristiques structurelles et les informations sémantiques des stimuli visuels, même dans des scénarios complexes, et surpasse les modèles existants.