[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ReCode: Actualización del conocimiento de la API de código con aprendizaje de refuerzo

Created by
  • Haebom

Autor

Haoze Wu, Yunzhi Yao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Describir

Este artículo aborda la dificultad de la capacidad de generación de código de los modelos de lenguaje a gran escala (LLM) para adaptarse a las actualizaciones frecuentes de las API de bibliotecas externas. Esto se debe a que los LLM utilizan información obsoleta de la API en sus datos de entrenamiento. Para abordar este problema, proponemos ReCode (aprendizaje de refuerzo basado en reglas para la actualización de código), un novedoso marco que imita la adaptación de los programadores a los cambios de la API. ReCode entrena a los LLM para realizar la migración de versiones basándose en información actualizada utilizando un conjunto de datos de aproximadamente 2000 elementos. También introducimos una métrica de similitud de cadenas modificada como recompensa por el aprendizaje de refuerzo. Los resultados experimentales muestran que ReCode mejora significativamente el rendimiento de la generación de código de los LLM en escenarios de API dinámicas, especialmente en la tarea CodeUpdateArena, aún no vista. En particular, en comparación con el ajuste fino del aprendizaje supervisado, ReCode tiene un menor impacto en la capacidad general de generación de código de los LLM. Aplicamos ReCode a varios LLM y algoritmos de aprendizaje de refuerzo (GRPO y DAPO) y logramos mejoras consistentes en el rendimiento. En particular, tras el entrenamiento, Qwen2.5-Coder-7B superó al modelo de ajuste fino de directivas de código de parámetros 32B y al modelo de inferencia con la misma arquitectura. El código se encuentra en https://github.com/zjunlp/ReCode .

Takeaways, Limitations

Takeaways:
Presentación de un método eficaz para mejorar el rendimiento de la generación de código en el entorno API dinámico de LLM
El marco ReCode basado en aprendizaje de refuerzo tiene un impacto menos negativo en la capacidad general de generación de código de LLM que el aprendizaje supervisado.
Aplicabilidad a diversos algoritmos de aprendizaje de refuerzo y LLM y verificación de un rendimiento excelente (rendimiento sobresaliente de Qwen2.5-Coder-7B)
Adaptabilidad mejorada a las actualizaciones de API del mundo real
Limitations:
Es necesario ampliar el tamaño del conjunto de datos, ya que actualmente está entrenado con 2000 elementos de datos.
Se necesita más investigación sobre el rendimiento de generalización en diferentes API y lenguajes de programación.
Necesidad de revisar la estabilidad y mantenibilidad a largo plazo de ReCode en entornos reales
Limitaciones y potencial de mejora de la métrica de similitud de cadenas utilizada
👍