Este artículo investiga las capacidades potenciales de inferencia de los modelos de lenguaje a gran escala (LLM), específicamente su capacidad para combinar dos hechos mediante la respuesta a preguntas en dos pasos. Investigaciones previas han demostrado que los LLM presentan dificultades con la respuesta a preguntas en dos pasos sin una CoT (Coordinación del Proceso de Pensamiento). Este estudio perfecciona los LLM utilizando hechos sintéticos, evaluando así sus capacidades de inferencia pura sin memorización ni atajos de inferencia. Experimentos con modelos como Llama 3 8B y GPT-4o muestran que, si bien estos modelos no logran combinar dos hechos sintéticos, sí logran combinar un hecho sintético con un hecho de lenguaje natural. Esto sugiere que los LLM tienen capacidades potenciales de inferencia en dos pasos, pero aún no está claro cómo esta capacidad escala con el tamaño del modelo. Finalmente, enfatizamos la importancia de que los investigadores de inferencia de LLM eviten tanto los falsos éxitos debidos a la memorización o atajos de inferencia como los falsos fracasos debidos a configuraciones experimentales artificiales al extraer conclusiones sobre las capacidades potenciales de inferencia de los LLM.