Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La ilusión del SWE-Bench: cuando los LLM de vanguardia recuerdan en lugar de razonar

Created by
  • Haebom

Autor

Shanchao Liang, Spandan Garg, Roshanak Zilouchian Moghaddam

Describir

Este artículo señala Limitations de SWE-Bench Verified, un punto de referencia para evaluar las capacidades de ingeniería de software de modelos de lenguaje a gran escala (LLM). Se argumenta que, si bien los LLM más recientes muestran un alto rendimiento en SWE-Bench, esto puede deberse a la memorización o contaminación de datos en lugar de a la verdadera capacidad de resolución de problemas. Para verificar esto, presentamos los resultados experimentales de dos tareas: identificar rutas de archivos con errores utilizando solo descripciones de problemas y reproducir funciones utilizando solo el contexto de archivo actual y las descripciones de problemas. Como resultado, los LLM más recientes muestran una alta precisión para los datos incluidos en SWE-Bench, pero una baja precisión para datos externos, lo que sugiere un efecto de memorización. Por lo tanto, concluimos que se necesita un nuevo punto de referencia robusto a la contaminación de datos para evaluar de forma fiable la capacidad de codificación de los LLM.

Takeaways, Limitations

Takeaways: Se cuestiona la fiabilidad de los parámetros de referencia existentes, como SWE-Bench Verified, y se enfatiza la importancia de evaluar el rendimiento del LLM. Se propone un nuevo método de evaluación que distingue entre la capacidad real de resolución de problemas y la capacidad de memorización del LLM. Se sugiere la necesidad de desarrollar un parámetro de referencia más sólido y generalizado, considerando la preocupación por la contaminación de datos.
Limitations: Las dos tareas de diagnóstico presentadas podrían centrarse únicamente en tipos específicos de habilidades de resolución de problemas y no reflejar plenamente las habilidades generales de codificación del Máster en Derecho (LLM). Faltan sugerencias específicas para desarrollar nuevos puntos de referencia. Se necesitan más resultados experimentales sobre diferentes tipos de LLM y puntos de referencia.
👍