Este artículo investiga si un modelo de lenguaje a gran escala (LLM) puede ser dotado con inteligencia social sutil similar a la humana, a saber, mente teórica (ToM), mediante técnicas de aprendizaje post-refuerzo (RL). Llevamos a cabo experimentos sistemáticos para entrenar LLMs a pequeña escala en varios conjuntos de datos ToM (HiToM, ExploreToM, FANToM) y evaluamos su capacidad de generalización en conjuntos de datos de reserva (p. ej., OpenToM). Encontramos que los LLMs a pequeña escala tienen dificultad para adquirir habilidades generales de ToM. Aunque su desempeño en los datos de entrenamiento mejora, no se transfieren a tareas de ToM no vistas con diferentes características. Además, mostramos que el entrenamiento RL a largo plazo lleva al modelo a "hackear" patrones estadísticos en el conjunto de datos de entrenamiento, lo que resulta en mejoras significativas en el desempeño en datos dentro del dominio pero ningún cambio o degradación en el desempeño en tareas fuera del dominio. Esto sugiere que el comportamiento aprendido no es la adquisición de habilidades de ToM verdaderamente abstractas, sino más bien una especie de sobreajuste estrecho.