본 논문은 대규모 비전-언어 모델에서의 객체 환각 문제를 해결하기 위해, 이미지와 텍스트 모달리티 간의 전역 및 지역 임베딩 유사성 신호를 활용하는 새로운 훈련이 필요 없는 객체 환각 탐지 프레임워크인 GLSim을 제안합니다. 기존 방법들이 전역 또는 지역 관점만을 고려하는 것과 달리, GLSim은 두 관점을 보완적으로 활용하여 다양한 상황에서 더 정확하고 신뢰할 수 있는 환각 탐지를 가능하게 합니다. 실험 결과, GLSim은 기존 최첨단 방법들을 상당한 차이로 능가하는 우수한 성능을 보여줍니다.