Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Generación de conjuntos de datos de alta calidad para la edición de código mediante modelos de lenguaje de código abierto

Created by
  • Haebom

Autor

Zekai Zhang, Mingwei Liu, Zhenxi Chen, Linxi Liang, Yuxuan Chen, Guangsheng Ou, Yanlin Wang, Dan Li, Xin Peng, Zibin Zheng

Describir

OpenCodeEdit es una canalización de código abierto que sintetiza tripletas realistas de edición de código aprovechando múltiples LLM para la edición de código, una tarea crucial en la ingeniería de software. Esta canalización genera tanto instrucciones concisas "perezosas" como instrucciones "descriptivas" más detalladas, y aplica diffs y filtrado basado en temas para garantizar la calidad y diversidad de los datos. Esto dio como resultado la creación de OCEDataFT, un conjunto de datos depurado de 20 000 muestras. El ajuste de tres modelos de referencia avanzados en OCEDataFT mejoró significativamente el rendimiento en la prueba de referencia CanItEdit, con una mejora relativa en pass@1 del 4,50 % al 20,79 %. Cabe destacar que el modelo generado alcanzó un rendimiento cercano al de un sistema cerrado, reduciendo la diferencia con GPT-4 en un 3,54 % sin requerir recursos propietarios ni anotación manual.

Takeaways, Limitations

Takeaways:
Genere instrucciones de edición de código del mundo real a través de canales de código abierto, que mejoran el rendimiento de referencia.
Demostrar la competitividad de los modelos de código abierto al lograr un rendimiento cercano a GPT-4 sin recursos propietarios.
Cree instrucciones concisas y detalladas para abordar una variedad de situaciones.
Limitations:
Se necesita más análisis sobre la eficacia de los métodos de filtrado para garantizar la calidad y la diversidad de los datos.
Es necesario verificar más a fondo la capacidad de generalización del modelo y su aplicabilidad a diversas tareas de edición de código.
Se necesitan más investigaciones para comprender los factores específicos que contribuyeron a la mejora del rendimiento (por ejemplo, LLM específicos, estrategias de ajuste).
👍