Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Generación de códigos multivuelta mediante recompensas de un solo paso
Created by
Haebom
Autor
Arnav Kumar Jain, Gonzalo González-Pumariega, Wayne Chen, Alexander M Rush, Wenting Zhao, Sanjiban Choudhury
Describir
Este artículo aborda el problema de la generación de código a partir de la retroalimentación de ejecución multironda. Los métodos existentes generan código sin retroalimentación o utilizan un aprendizaje de refuerzo jerárquico complejo para optimizar las recompensas multironda. En este artículo, proponemos $\mu$Code, un enfoque simple pero escalable para resolver el problema de la generación de código multironda utilizando únicamente recompensas de una sola ronda. La idea central es que la generación de código es un Proceso de Decisión de Markov (MDP) recuperable de una sola ronda que puede recuperar el código correcto a partir de estados intermedios de código en un solo paso. $\mu$Code entrena iterativamente un generador que proporciona soluciones de código condicionadas a la retroalimentación de ejecución multironda y un verificador que evalúa el código recién generado. Los resultados experimentales muestran que el método propuesto logra mejoras significativas de rendimiento con respecto a los modelos de referencia de última generación. También proporcionamos un análisis de las opciones de diseño del modelo y la política de recompensas, y demostramos la eficacia de $\mu$Code para aprovechar la retroalimentación de ejecución. El código se puede encontrar en https://github.com/portal-cornell/muCode .
Takeaways: Un enfoque novedoso para resolver eficazmente problemas de generación de código multironda utilizando recompensas de una sola etapa. Mejora del rendimiento con respecto a los modelos de referencia más avanzados. Una metodología altamente escalable. Un método para utilizar eficazmente la retroalimentación de ejecución. Publicación de código abierto.
•
Limitations: Se requiere mayor investigación para determinar si el supuesto de MDP recuperable en un solo paso de $\mu$Code es aplicable a todos los problemas de generación de código. Se requiere una evaluación del rendimiento de generalización para diversos lenguajes de programación y complejidades de código. Se requiere un mayor análisis y mejora del diseño de modelos y políticas de recompensa.