본 논문은 사후 강화학습(RL) 기법을 통해 대규모 언어 모델(LLM)에 인간과 같은 미묘한 사회적 지능, 즉 이론적 마음(ToM)을 부여할 수 있는지 여부를 조사한다. 다양한 ToM 데이터셋(HiToM, ExploreToM, FANToM)을 사용하여 소규모 LLM을 훈련하고, 홀드아웃 데이터셋(예: OpenToM)에서 일반화 능력을 평가하는 체계적인 실험을 수행하였다. 그 결과, 소규모 LLM은 일반적인 ToM 능력을 습득하는 데 어려움을 겪는다는 것을 발견하였다. 훈련 데이터에 대한 성능은 향상되었지만, 특징이 다른 보이지 않는 ToM 과제로의 전이에는 실패하였다. 또한, 장기간의 RL 훈련은 모델이 훈련 데이터셋의 통계적 패턴을 '해킹'하여 도메인 내 데이터의 성능은 크게 향상되지만, 도메인 외부 과제의 성능에는 변화가 없거나 저하되는 결과를 초래한다는 것을 보여주었다. 이는 학습된 행동이 진정한 추상적인 ToM 능력의 습득이 아니라 일종의 좁은 과적합임을 시사한다.