본 논문은 21개의 오픈소스 대규모 언어 모델(LLM)을 대상으로, 문법 지식과 단어 예측 두 영역에서 모델의 내적 상태에 대한 자기 성찰 능력(introspection)을 체계적으로 조사한 연구입니다. 모델의 내적 언어 지식은 문자열 확률의 직접 측정을 통해 이론적으로 뒷받침될 수 있으며, 논문에서는 금속 언어적 프롬프트에 대한 모델의 반응이 내적 지식을 얼마나 정확하게 반영하는지 평가합니다. 모델의 프롬프트 응답이 다른 모델의 내적 지식을 넘어 자체 문자열 확률을 얼마나 예측하는지를 측정하는 새로운 자기 성찰 척도를 제안하며, 고도의 작업 정확도에도 불구하고 LLM이 특별한 "자기 접근" 능력을 가지고 있다는 증거를 발견하지 못했습니다. 결론적으로, 프롬프트에 대한 응답과 모델의 언어적 일반화를 혼동해서는 안 된다는 주장에 대한 새로운 증거를 제시합니다.