Este artículo investiga la capacidad de GPT Privada (GPT) para generar automáticamente código de prueba ejecutable a partir de los requisitos. Específicamente, presentamos un método que permite a los propietarios de producto o a los equipos de inteligencia de negocio (BI) generar directamente criterios de prueba mediante LLM, utilizando criterios de aceptación formalizados como parte de épicas o historias, comúnmente utilizadas en los procesos de desarrollo modernos. Evaluamos la calidad de las pruebas generadas mediante dos métodos: LLM, que genera código directamente a partir de los requisitos, y un paso intermedio utilizando la sintaxis Gherkin. Los resultados muestran que el proceso de dos pasos ofrece mejores resultados en términos de legibilidad y buenas prácticas de codificación (número de líneas de código y uso de bibliotecas adicionales comunes en las pruebas). Evaluamos específicamente la efectividad de las indicaciones en dos escenarios: un programa "Hola Mundo" y un modelo de clasificación numérica, demostrando que las indicaciones estructuradas generan resultados de prueba de mayor calidad.