Cet article porte sur une analyse approfondie des hallucinations survenant dans les modèles vision-langage (VL), en particulier dans les modèles de sous-titrage d'images. Nous proposons un cadre de détection des hallucinations appelé HalCECE, qui transforme les légendes d'hallucinations en légendes non hallucinatoires avec un minimum de modifications sémantiques basées sur des connaissances hiérarchiques, en s'appuyant sur des techniques d'explication conceptuelles et semi-empiriques existantes. HalCECE offre une grande interprétabilité en fournissant des modifications significatives plutôt que des chiffres, et permet une analyse approfondie des hallucinations grâce à la décomposition hiérarchique des concepts d'hallucinations. Il s'agit également de l'une des premières études à étudier les hallucinations de rôle en considérant les interconnexions entre les concepts visuels. En conclusion, HalCECE présente une approche explicative de la détection des hallucinations VL, facilitant une évaluation fiable des systèmes VL actuels et futurs.