본 논문은 대규모 언어 모델(LLM)의 메타인지 능력, 특히 내부 활성화 패턴을 보고하고 제어하는 능력에 대한 연구를 제시합니다. LLM이 과제 해결에 사용하는 전략을 보고하는 경우도 있지만, 그렇지 못하는 경우도 있다는 점에 착안하여, 신경과학에서 영감을 얻은 뉴로피드백 패러다임을 도입하여 LLM의 메타인지 능력을 정량화합니다. 문장-레이블 쌍을 제시하여 LLM이 특정 신경 표현 공간 방향을 따라 문장으로 유발된 내부 활성화를 보고하고 제어하도록 학습시키는 실험을 진행합니다. 실험 결과, LLM은 신경 공간보다 훨씬 낮은 차원의 "메타인지 공간"을 가지고 있으며, 내부 메커니즘의 일부만 모니터링할 수 있음을 보여줍니다. 이는 LLM의 메타인지 능력에 대한 경험적 증거를 제공하며, AI 안전에 중요한 시사점을 갖습니다.