Dans cet article, nous proposons un nouveau benchmark, HalluSegBench, pour résoudre le problème des hallucinations dans les modèles de segmentation du langage visuel. Contrairement aux méthodes d'évaluation existantes qui se concentrent uniquement sur les hallucinations d'étiquettes ou de textes sans tenir compte du contexte visuel, HalluSegBench évalue les hallucinations par inférence visuelle contrefactuelle. Nous présentons un nouvel ensemble de données composé de 1 340 paires d'instances contrefactuelles réparties sur 281 classes d'objets distinctes, ainsi qu'une nouvelle mesure quantifiant la sensibilité aux hallucinations lors d'un montage de scène visuellement cohérent. Les résultats expérimentaux obtenus sur des modèles de segmentation du langage visuel de pointe montrent que les hallucinations visuelles sont beaucoup plus fréquentes que celles basées sur les étiquettes et que les modèles ont tendance à persister dans des segmentations incorrectes, soulignant la nécessité d'une inférence contrefactuelle pour diagnostiquer la fidélité sous-jacente.