Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

GPT privados para pruebas basadas en LLM en desarrollo de software y aprendizaje automático

Created by
  • Haebom

Autor

Jakub Jagielski, Consuelo Rojas, Markus Abel

Describir

Este artículo investiga la capacidad de GPT Privada (GPT) para generar automáticamente código de prueba ejecutable a partir de los requisitos. Específicamente, presentamos un método que permite a los propietarios de producto o a los equipos de inteligencia de negocio (BI) generar directamente criterios de prueba mediante LLM, utilizando criterios de aceptación formalizados como parte de épicas o historias, comúnmente utilizadas en los procesos de desarrollo modernos. Evaluamos la calidad de las pruebas generadas mediante dos métodos: LLM, que genera código directamente a partir de los requisitos, y un paso intermedio utilizando la sintaxis Gherkin. Los resultados muestran que el proceso de dos pasos ofrece mejores resultados en términos de legibilidad y buenas prácticas de codificación (número de líneas de código y uso de bibliotecas adicionales comunes en las pruebas). Evaluamos específicamente la efectividad de las indicaciones en dos escenarios: un programa "Hola Mundo" y un modelo de clasificación numérica, demostrando que las indicaciones estructuradas generan resultados de prueba de mayor calidad.

Takeaways, Limitations

Takeaways:
Demostramos que LLM se puede utilizar para generar automáticamente código de prueba basado en requisitos.
Demostramos que un proceso de dos pasos que utiliza la sintaxis Gherkin es eficaz para mejorar la calidad del código de prueba.
Descubrimos que las indicaciones estructuradas tuvieron un impacto significativo en la calidad de la generación del código de prueba.
Ofrece el potencial de agilizar el proceso de creación de criterios de prueba para propietarios de productos o inteligencia empresarial.
Limitations:
Los escenarios utilizados para la evaluación son limitados (un programa simple “Hola Mundo” y un modelo de clasificación numérica).
Se necesita más investigación sobre la generalización a diferentes tipos de requisitos y sistemas complejos.
Falta de explicación específica de las características y limitaciones del GPT Privado.
Falta de métricas cuantitativas para obtener "mejores resultados" (basándose simplemente en evaluaciones subjetivas de legibilidad humana y mejores prácticas de codificación).
👍