Cet article propose GLSim, un nouveau cadre d'analyse pour améliorer la fiabilité de la détection d'hallucinations d'objets dans les modèles vision-langage à grande échelle. Contrairement aux méthodes existantes qui ne prennent en compte que les perspectives globales ou locales, GLSim combine des informations complémentaires en exploitant les signaux de similarité d'intégration globaux et locaux entre les modes image et texte. Les résultats expérimentaux démontrent que GLSim surpasse les méthodes existantes pour la détection d'hallucinations d'objets.