Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este artículo aborda la dificultad de la capacidad de generación de código de los modelos de lenguaje a gran escala (LLM) para adaptarse a las actualizaciones frecuentes de las API de bibliotecas externas. Esto se debe a que los LLM utilizan información obsoleta de la API en sus datos de entrenamiento. Para abordar este problema, proponemos ReCode (aprendizaje de refuerzo basado en reglas para la actualización de código), un novedoso marco que imita la adaptación de los programadores a los cambios de la API. ReCode entrena a los LLM para realizar la migración de versiones basándose en información actualizada utilizando un conjunto de datos de aproximadamente 2000 elementos. También introducimos una métrica de similitud de cadenas modificada como recompensa por el aprendizaje de refuerzo. Los resultados experimentales muestran que ReCode mejora significativamente el rendimiento de la generación de código de los LLM en escenarios de API dinámicas, especialmente en la tarea CodeUpdateArena, aún no vista. En particular, en comparación con el ajuste fino del aprendizaje supervisado, ReCode tiene un menor impacto en la capacidad general de generación de código de los LLM. Aplicamos ReCode a varios LLM y algoritmos de aprendizaje de refuerzo (GRPO y DAPO) y logramos mejoras consistentes en el rendimiento. En particular, tras el entrenamiento, Qwen2.5-Coder-7B superó al modelo de ajuste fino de directivas de código de parámetros 32B y al modelo de inferencia con la misma arquitectura. El código se encuentra en https://github.com/zjunlp/ReCode .
Presentación de un método eficaz para mejorar el rendimiento de la generación de código en el entorno API dinámico de LLM
◦
El marco ReCode basado en aprendizaje de refuerzo tiene un impacto menos negativo en la capacidad general de generación de código de LLM que el aprendizaje supervisado.
◦
Aplicabilidad a diversos algoritmos de aprendizaje de refuerzo y LLM y verificación de un rendimiento excelente (rendimiento sobresaliente de Qwen2.5-Coder-7B)
◦
Adaptabilidad mejorada a las actualizaciones de API del mundo real
•
Limitations:
◦
Es necesario ampliar el tamaño del conjunto de datos, ya que actualmente está entrenado con 2000 elementos de datos.
◦
Se necesita más investigación sobre el rendimiento de generalización en diferentes API y lenguajes de programación.
◦
Necesidad de revisar la estabilidad y mantenibilidad a largo plazo de ReCode en entornos reales
◦
Limitaciones y potencial de mejora de la métrica de similitud de cadenas utilizada