Este artículo propone GLSim, un nuevo marco para mejorar la fiabilidad de la detección de alucinaciones de objetos en modelos de visión-lenguaje a gran escala. A diferencia de los métodos existentes que solo consideran perspectivas globales o locales, GLSim combina información complementaria aprovechando las señales de similitud de incrustación globales y locales entre los modos de imagen y texto. Los resultados experimentales demuestran que GLSim supera a los métodos existentes en la detección de alucinaciones de objetos.