본 논문은 21개의 오픈소스 대규모 언어 모델(LLM)을 대상으로 문법 지식과 단어 예측 두 영역에서 자기 성찰 능력(introspection)을 체계적으로 조사한 연구입니다. 모델의 내부 언어 지식은 문자열 확률의 직접 측정으로 이론적으로 뒷받침될 수 있다는 점을 고려하여, 금속 언어적 프롬프트에 대한 모델의 응답이 내부 지식을 얼마나 정확하게 반영하는지 평가했습니다. 모델의 프롬프트 응답이 자체 문자열 확률을 예측하는 정도를 측정하는 새로운 자기 성찰 지표를 제안하고, 유사한 내부 지식을 가진 다른 모델의 예측을 초과하는지 평가했습니다. 그 결과, 금속 언어적 프롬프트와 확률 비교 모두 높은 작업 정확도를 달성했지만, LLM이 특권적인 "자기 접근"을 가지고 있다는 증거는 발견하지 못했습니다. 다양한 오픈소스 모델을 광범위하게 평가하고 모델 유사성을 통제함으로써, LLM은 자기 성찰을 할 수 없으며, 프롬프트 응답을 모델의 언어적 일반화와 혼동해서는 안 된다는 주장에 대한 새로운 증거를 제시합니다.