[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CodeAssistBench (CAB): Conjunto de datos y evaluación comparativa para la asistencia de código basada en chat multiturno

Created by
  • Haebom

Autor

Myeongsoo Kim, Shweta Garg, Baishakhi Ray, Varun Kumar, Anoop Deoras

Describir

En este artículo, presentamos CodeAssistBench (CAB), un novedoso marco de referencia para evaluar el soporte de programación multironda utilizando bases de código reales y superar las limitaciones de las referencias existentes centradas en la generación de código. CAB genera un conjunto de datos escalable automáticamente a partir de datos de incidencias de GitHub y evalúa modelos en entornos de bases de código contenedorizadas. Evaluamos los principales modelos de lenguaje a gran escala (LLM) en un conjunto de pruebas compuesto por 231 repositorios, 7 lenguajes de programación y 3286 preguntas de programación reales. Observamos que su rendimiento en entornos de proyectos complejos es significativamente inferior al de las preguntas individuales (hasta un 16,49 % para las preguntas de CAB, en comparación con el 70-83 % para las preguntas de Stack Overflow). Esto demuestra una importante diferencia de rendimiento entre la respuesta a preguntas simples y la prestación de soporte en situaciones complejas y específicas del proyecto.

Takeaways, Limitations

Takeaways:
Se enfatiza la importancia de la evaluación del soporte de programación en múltiples rondas utilizando bases de código reales.
Presentamos un nuevo marco de referencia (CAB) que supera las limitaciones de los puntos de referencia existentes.
Presentar claramente el problema de degradación del rendimiento al aplicar LLM a un entorno real.
Plantea la necesidad de desarrollar tecnologías de apoyo a la programación en contextos de proyectos complejos.
Limitations:
El alcance del conjunto de datos CAB puede estar limitado a un repositorio de GitHub específico.
Es necesaria una mayor validación de la calidad y diversidad de los conjuntos de datos generados automáticamente.
Es posible que no refleje exactamente la situación real de los usuarios.
Debe haber una explicación clara del tipo y versión de LLM utilizado en la evaluación.
👍