본 논문은 시각-언어 모델(VLMs)의 환각(hallucination) 문제를 해결하기 위해 기존의 단일 토큰 분석 기반 환각 검출기의 한계를 지적하고, 다중 토큰을 활용한 새로운 검출 방법인 MTRE(Multi-Token Reliability Estimation)를 제안합니다. 기존 방법들이 초기 토큰의 logit만 분석하는 것과 달리, MTRE는 초기 10개 토큰의 logit을 다중 토큰 로그 우도 비율과 self-attention을 이용하여 종합적으로 분석합니다. KL divergence를 활용하여 환각과 비환각 토큰 간의 logit 차이를 분석함으로써, 환각이 여러 토큰 생성 후에 나타나는 점을 강조합니다. 실험 결과, MAD-Bench, MM-SafetyBench, MathVista 등 다양한 벤치마크에서 기존 방법들보다 AUROC 성능을 크게 향상시켜 환각 검출 분야의 새로운 state-of-the-art를 달성했습니다.