본 논문은 언어 모델의 자기 성찰 능력 연구에 초점을 맞추어, Lindsey (2025)의 실험 중 하나인 주입된 "생각"의 자기 보고 능력을 직접 훈련할 수 있는지 탐구한다. 70억 파라미터 모델을 일시적인 단일 토큰 주입에 대한 미세 조정으로 훈련시켜, 거의 실패 수준(0.4% 정확도)에서 신뢰할 수 있는 탐지(85% 정확도, 0% 오탐)로 성능을 향상시켰다. 훈련된 모델은 단일 토큰 위치에서 주입된 "생각"을 감지하고, 해당 정보를 유지하며, 이후 생성 단계에서 의미 내용을 보고한다. 이 모델은 Lindsey의 세 가지 기준(정확성, 접지성, 내재성)을 충족하며, 보이지 않는 개념 벡터에 대한 일반화(7.5% 차이)를 통해 특정 벡터 암기가 아닌 이전 가능한 기술을 학습함을 보여준다.