본 연구는 대규모 언어 모델 출력에서 토큰 수준의 환각(hallucination) 탐지를 다룬다. 기존 연구에서 환각 발생 시 어텐션이 불규칙한 패턴을 보이는 것을 발견한 데 착안하여, (a) 각 토큰이 받는 평균 어텐션 (특정 토큰이 과도하게 영향력이 있거나 무시되는지 확인), (b) 각 토큰이 받는 어텐션의 다양성 (어텐션이 특정 하위 집합에 치우치는지 여부 확인), (c) 생성 과정에서 토큰이 참조하는 토큰의 다양성 (모델이 좁거나 넓은 범위의 정보를 참조하는지 여부 확인)을 보여주는 어텐션 매트릭스에서 특징을 추출한다. 이러한 특징들을 Transformer 기반 분류기에 입력하여 토큰 수준의 분류를 수행하여 환각 구간을 식별한다. 실험 결과, 제안된 방법은 긴 입력 컨텍스트(데이터-텍스트 및 요약 작업)를 사용하는 환각 탐지에서 강력한 기준 모델보다 성능이 우수함을 보여준다.