Con el creciente uso de modelos lingüísticos a gran escala (LLM) para la generación de datos, ha aumentado la importancia de generar parámetros de evaluación. Este artículo examina si los LLM pueden cumplir los requisitos para generar parámetros de texto basados en inferencia mediante dos estudios de caso. Específicamente, evaluamos versiones generadas por LLM de dos conjuntos de datos de comprensión lectora de alta calidad (CondaQA, que evalúa la inferencia de negación, y DROP, que evalúa la inferencia de cuantificación) y las comparamos con conjuntos de datos originales de colaboración abierta. Observamos que los LLM pueden generar versiones válidas de los conjuntos de datos originales a bajo costo, siguiendo las directrices de estos, pero son menos complejos que los parámetros generados por humanos.