Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Klear-CodeTest: Generación escalable de casos de prueba para el aprendizaje por refuerzo de código

Created by
  • Haebom

Autor

Jia Fu, Xinyu Yang, Hongzhi Zhang, Yahui Liu, Jingyuan Zhang, Qi Wang, Fuzheng Zhang, Guorui Zhou

Describir

Este artículo destaca la importancia de una retroalimentación precisa para el entrenamiento eficaz de modelos de lenguaje a gran escala (LLM) en el aprendizaje por refuerzo de código y presenta el marco de trabajo Klear-CodeTest para abordar los desafíos de generar casos de prueba de alta calidad. Klear-CodeTest genera casos de prueba completos, incluyendo casos regulares y de excepción, mediante un marco de trabajo de generador-verificador (GV) y garantiza la corrección mediante la verificación de consistencia con soluciones de referencia. Además, diseñamos un sistema de entorno de pruebas de seguridad multicapa para una ejecución de código segura y fiable, y los experimentos demuestran que el conjunto de datos generado contribuye a mejorar el rendimiento del modelo y la estabilidad del entrenamiento. El código fuente, el conjunto de datos y el sistema de entorno de pruebas están disponibles públicamente en GitHub.

Takeaways, Limitations

Takeaways:
Se presenta un marco eficaz (Klear-CodeTest) para generar automáticamente casos de prueba de alta calidad.
Introducción de un mecanismo de verificación riguroso para garantizar la precisión y confiabilidad de los casos de prueba generados.
Contribuye a mejorar el rendimiento del modelo y la estabilidad del entrenamiento en el aprendizaje de refuerzo de código.
Proporcionar un entorno de ejecución de código seguro a través de un sistema sandbox de seguridad de múltiples capas.
Mayor reproducibilidad y escalabilidad de la investigación mediante la divulgación de los conjuntos de datos generados y el código fuente.
Limitations:
Existe la posibilidad de que el rendimiento del marco presentado pueda estar sesgado hacia ciertos tipos de problemas de programación o LLM de cierta escala.
Dependencia de la corrección de la solución de oro: si la propia solución de oro contiene errores, esto puede afectar la corrección de los casos de prueba generados.
Se necesita más verificación sobre la eficiencia y escalabilidad de la generación de casos de prueba para programas complejos.
👍