본 논문은 사후 학습 단계에서 규칙 기반 강화 학습(RL)을 적용하여 대규모 언어 모델(LLM)의 구조적 추론 능력을 향상시킨 연구에 대해 다룹니다. 특히, 타인의 정신 상태를 추론하는 능력인 Theory of Mind (ToM)에 대한 사회적 추론에서 RL의 효과를 조사합니다. 0.5B~7B 파라미터의 소규모 LLM을 대상으로 3200개 질문으로 구성된 데이터셋을 사용하여 실험한 결과, RL로 학습된 7B 모델은 Hi-ToM 벤치마크에서 84.50%의 정확도를 달성하여 GPT-4o 및 DeepSeek-v3와 같은 모델을 능가했습니다. 3B 파라미터 이하의 소규모 모델은 추론 붕괴 현상을 보였으나, 7B 파라미터 이상의 대규모 모델은 일관된 신념 추적을 통해 안정적인 성능을 유지했습니다. 또한, 고차원적인 분포 외 ToM 문제, 새로운 텍스트 표현, 그리고 이전에 보지 못한 데이터셋에 대해 강력한 일반화 능력을 보였습니다. 이러한 결과는 RL이 LLM에서 구조적 문제 해결과 미묘한 사회적 추론 간의 간극을 메우는 사회적 인지 추론 향상에 대한 잠재력을 보여줍니다.