본 논문은 대규모 언어 모델(LLM)이 생성한 콘텐츠의 사실적 오류를 검출하는 능력에 대해 연구합니다. 기존 연구는 LLM이 생성 후 사실 확인(post-generation fact-checking)을 통해 사실적 오류를 (때때로) 감지할 수 있음을 시사합니다. 본 연구는 LLM이 생성 시점에 사실적 재현의 정확성을 결정하는 내부 나침반(internal compass)을 가지고 있음을 보여주는 증거를 제공합니다. 특정 주제 개체와 관계에 대해 LLM이 Transformer의 잔차 스트림(residual stream)에 유효한 개체-관계-속성 삼중항을 형성하는 정확한 속성을 회상할 수 있는지 여부를 결정하는 선형 특징을 내부적으로 인코딩함을 보여줍니다. 이러한 자기 인식 신호는 사소한 형식 변화에도 강합니다. 다양한 예시 선택 전략을 통한 문맥 섭동의 영향을 조사합니다. 모델 크기 및 훈련 역학에 걸친 확장 실험은 자기 인식이 훈련 중에 빠르게 나타나고 중간 레이어에서 최고조에 달함을 강조합니다. 이러한 결과는 LLM 내의 고유한 자기 모니터링 기능을 발견하여 해석 가능성과 신뢰성에 기여합니다.