본 논문은 21개의 오픈소스 대규모 언어 모델(LLM)을 대상으로, 문법 지식과 단어 예측 두 영역에서 자기 성찰 능력의 출현 여부를 체계적으로 조사합니다. 모델의 내부 언어 지식은 문자열 확률의 직접 측정으로 이론적으로 뒷받침될 수 있다는 점을 중요하게 고려하여, 금속 언어 프롬프트에 대한 모델의 응답이 내부 지식을 얼마나 정확하게 반영하는지 평가합니다. 모델의 프롬프트 응답이 다른 모델의 내부 지식을 넘어서 자체 문자열 확률을 예측하는 정도를 측정하는 새로운 자기 성찰 척도를 제안합니다. 금속 언어 프롬프트와 확률 비교 모두 높은 작업 정확도를 보이지만, LLM이 특권적인 "자기 접근"을 가지고 있다는 증거는 발견하지 못했습니다. 결론적으로, 모델이 자기 성찰을 할 수 있다는 최근 결과에 의문을 제기하고, 프롬프트에 대한 응답을 모델의 언어적 일반화와 혼동해서는 안 된다는 주장에 대한 새로운 증거를 제시합니다.