Este artículo destaca la importancia de una retroalimentación precisa para el entrenamiento eficaz de modelos de lenguaje a gran escala (LLM) en el aprendizaje por refuerzo de código y presenta el marco de trabajo Klear-CodeTest para abordar los desafíos de generar casos de prueba de alta calidad. Klear-CodeTest genera casos de prueba completos, incluyendo casos regulares y de excepción, mediante un marco de trabajo de generador-verificador (GV) y garantiza la corrección mediante la verificación de consistencia con soluciones de referencia. Además, diseñamos un sistema de entorno de pruebas de seguridad multicapa para una ejecución de código segura y fiable, y los experimentos demuestran que el conjunto de datos generado contribuye a mejorar el rendimiento del modelo y la estabilidad del entrenamiento. El código fuente, el conjunto de datos y el sistema de entorno de pruebas están disponibles públicamente en GitHub.