Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendiendo a generar pruebas unitarias para la depuración automatizada

Created by
  • Haebom

Autor

Archiki Prasad, Elias Stengel-Eskin, Justin Chih-Yao Chen, Zaid Khan, Mohit Bansal

Describir

Este artículo revela una compensación entre generar entradas de pruebas unitarias propensas a errores y predecir con precisión las salidas de pruebas unitarias sin una respuesta correcta. Para abordar esto, proponemos UTGen, que entrena a los LLM para generar entradas de pruebas unitarias propensas a errores y corregir las salidas esperadas según las descripciones de las tareas. Dado que las pruebas generadas por el modelo pueden ser ruidosas, mejoramos las predicciones de salida de las UT aprovechando los cálculos en tiempo de prueba mediante UTDebug. Además, verificamos y retrocedemos las ediciones basadas en múltiples UT generadas para evitar el sobreajuste y facilitar eficazmente la depuración de LLM. Los resultados experimentales muestran que UTGen supera a otros modelos de referencia basados ​​en LLM en un 7,59 % en métricas que miden tanto las entradas de UT propensas a errores como las salidas de UT correctas. Al combinarse con UTDebug, mejora la precisión de paso a 1 de Qwen2.5 32B en un 3,17 % y un 12,35 %, respectivamente, en particiones de depuración más complejas de HumanEvalFix y MBPP+, en comparación con otros modelos de referencia de generación de UT basados ​​en LLM. Además, la retroalimentación del modelo UTGen basado en Qwen2.5 32B mejoró el rendimiento de depuración de LLM de vanguardia, como GPT-4o, en un 13,8 %. Finalmente, UTGen demuestra que, al usar Qwen2.5 7B con las 10 mejores muestras de HumanEval+, supera al modelo de recompensa de vanguardia 8B en un 4,43 % en la determinación de la corrección del código.

Takeaways, Limitations

Takeaways:
Presentamos un enfoque novedoso para resolver el equilibrio entre generar entradas de pruebas unitarias que revelen errores y predecir salidas precisas.
Se mejoró el rendimiento de generación y depuración de pruebas unitarias basadas en LLM con UTGen y UTDebug.
Contribuir a mejorar la capacidad de LLM para juzgar la corrección del código
Contribuyendo a mejorar el rendimiento de depuración de LLM de vanguardia
Limitations:
Las mejoras de rendimiento de UTGen y UTDebug pueden depender del LLM (Qwen2.5) y del conjunto de datos específico. Se requiere más investigación para determinar el rendimiento de generalización en otros LLM y conjuntos de datos.
Necesita crear pruebas unitarias para código complejo y evaluar el rendimiento de la depuración.
Se necesita más análisis sobre la eficacia de la estrategia de prevención de sobreajuste de UTDebug.
Necesidad de evaluar la aplicabilidad y escalabilidad para bases de código grandes.
👍