En este artículo, proponemos un nuevo marco para evaluar la capacidad de los modelos lingüísticos a gran escala (LLM) para adquirir nuevos conocimientos. El marco simula a un ser humano curioso que se encuentra con una oración que introduce conocimiento científico, induciendo al LLM a generar preguntas por primera vez. Evaluamos el potencial de adquisición de conocimiento del LLM evaluando la calidad de las preguntas generadas y validamos la validez del procedimiento de puntuación mediante un estudio de eliminación controlada. Generamos un conjunto de datos sintéticos que consta de 1101 oraciones de diversa dificultad en física, química y matemáticas, 300 oraciones de conocimiento general y 567 oraciones incorrectas, y validamos la validez de la evaluación del modelo mediante una evaluación humana (kappa de Cohen ponderada de aproximadamente 0,7). Observamos que, si bien los modelos grandes como GPT-4 y Mistral 8x7b son hábiles para generar preguntas consistentes y relevantes, el modelo Phi-2, más pequeño, es igual o más efectivo. Esto sugiere que el tamaño del modelo no es el único factor que determina el potencial de adquisición de conocimiento. El marco propuesto cuantifica características importantes del modelo que anteriormente se habían pasado por alto y presenta oportunidades de investigación para desarrollar sistemas de IA más ricos en conocimiento.