본 논문은 대규모 언어 모델(LLM)의 환각(hallucination) 문제, 즉 사실적 부정확성, 편향, 추론 실패 등의 오류 발생 문제를 다룹니다. 기존 연구에서 LLM의 내부 상태가 출력의 진실성에 대한 정보를 담고 있음을 보여준 바 있는데, 본 논문은 이러한 진실성 정보가 기존에 인식되었던 것보다 훨씬 더 풍부하게 내부 표현에 인코딩되어 있음을 밝힙니다. 특정 토큰에 진실성 정보가 집중되어 있음을 발견하고, 이를 활용하여 오류 탐지 성능을 크게 향상시킬 수 있음을 보였습니다. 그러나 이러한 오류 탐지기는 데이터셋 간 일반화에 실패하여, 진실성 인코딩이 보편적이지 않고 다면적임을 시사합니다. 또한, 내부 표현을 이용하여 모델이 저지를 가능성이 높은 오류 유형을 예측하고, 맞춤형 완화 전략 개발에 활용할 수 있음을 보여줍니다. 마지막으로, LLM의 내부 인코딩과 외부 행동 간의 불일치를 밝히는데, 올바른 답을 인코딩하고 있음에도 불구하고 일관되게 잘못된 답을 생성하는 경우가 있음을 보입니다. 결론적으로, 이러한 통찰은 모델의 내부 관점에서 LLM 오류에 대한 이해를 심화시켜, 오류 분석 및 완화에 대한 미래 연구를 위한 지침을 제공합니다.