Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CoQuIR: Un punto de referencia integral para la recuperación de información con reconocimiento de la calidad del código

Created by
  • Haebom

Autor

Jiahui Geng, Fengyu Cai, Shaobo Cui, Qing Li, Liangwei Chen, Chenyang Lyu, Haonan Li, Derui Zhu, Walter Pretschner, Heinz Koeppl, Fakhri Karray

Describir

Este artículo propone CoQuIR, un benchmark multilingüe a gran escala para evaluar la conciencia de calidad en la recuperación de código, esencial para mejorar la reutilización de código y la velocidad de depuración en el desarrollo de software. A diferencia de los benchmarks existentes que se centran únicamente en la relevancia funcional, CoQuIR proporciona anotaciones de calidad detalladas para 42.725 consultas y 134.907 fragmentos de código en 11 lenguajes de programación, considerando cuatro dimensiones fundamentales: precisión, eficiencia, seguridad y mantenibilidad. Utilizando dos métricas de evaluación centradas en la calidad (Precisión de Preferencia por Pares y Puntuación de Clasificación Basada en Margenes), evaluamos 23 modelos de recuperación y descubrimos que incluso los modelos con mejor rendimiento tienen dificultades para distinguir el código con errores o inseguro del código más robusto. Además, realizamos una investigación preliminar sobre métodos de entrenamiento que fomentan explícitamente la conciencia de calidad del código, demostrando mejoras en las métricas de conciencia de calidad en varios modelos utilizando conjuntos de datos sintéticos. Posteriormente, validamos la eficacia de nuestro enfoque mediante experimentos posteriores de generación de código. En conclusión, este estudio destaca la importancia de integrar señales de calidad en los sistemas de búsqueda de código, sentando las bases para herramientas de desarrollo de software más confiables y robustas.

Takeaways, Limitations

Takeaways:
Se enfatiza la importancia de considerar la calidad del código (corrección, eficiencia, seguridad, mantenibilidad) en los sistemas de búsqueda de código.
Proporcionamos un punto de referencia multilingüe a gran escala, CoQuIR, para evaluar con precisión las capacidades de reconocimiento de calidad de los modelos de búsqueda de código.
Demostramos que los métodos de formación centrados en la calidad pueden mejorar el rendimiento de la percepción de la calidad.
Sentar las bases para desarrollar herramientas de desarrollo de software más confiables y robustas.
Limitations:
Dado que el punto de referencia CoQuIR se basa en resultados experimentales preliminares que utilizan conjuntos de datos sintéticos, se necesita una mayor validación de su desempeño en conjuntos de datos del mundo real.
Se necesitan más investigaciones para determinar la generalización del método de capacitación centrado en la calidad propuesto.
Es posible que no se haya discutido lo suficiente sobre las limitaciones y el potencial de mejora de las métricas de evaluación.
👍