Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La ilusión del SWE-Bench: cuando los LLM de vanguardia recuerdan en lugar de razonar

Created by
  • Haebom

Autor

Shanchao Liang, Spandan Garg, Roshanak Zilouchian Moghaddam

Describir

Este artículo destaca la falla Limitations en SWE-Bench Verified, un punto de referencia para evaluar las capacidades de ingeniería de software de los modelos de lenguaje a gran escala (LLM). Si bien los LLM recientes demuestran un alto rendimiento en SWE-Bench, esto puede deberse a la memorización o contaminación de datos en lugar de a la capacidad real de resolución de problemas. Para verificar esto, el artículo presenta dos tareas de diagnóstico: identificar rutas de archivos basándose únicamente en descripciones de problemas y reproducir funciones basándose únicamente en el contexto del archivo actual y las descripciones de problemas. Los resultados experimentales muestran que, si bien los modelos de vanguardia exhiben una alta precisión en los datos incluidos en SWE-Bench, su precisión disminuye drásticamente en los datos no incluidos, lo que genera inquietudes sobre la confiabilidad de los resultados de la evaluación de SWE-Bench. Esto resalta la necesidad de un punto de referencia más robusto y resistente a la contaminación para evaluar las capacidades de codificación de LLM.

Takeaways, Limitations

Takeaways: Esto demuestra que los parámetros de referencia existentes, como SWE-Bench Verified, podrían no evaluar con precisión la capacidad de resolución de problemas reales del LLM. Se necesita un parámetro de referencia más robusto que evite la memorización y la contaminación de datos para evaluar el rendimiento del LLM. Se necesita una nueva metodología de evaluación que distinga entre la capacidad de resolución de problemas generalizada y la capacidad de memorización del LLM.
Limitations: Las dos tareas de diagnóstico presentadas podrían evaluar únicamente habilidades específicas de resolución de problemas. Se necesita un parámetro de referencia más completo que abarque una gama más amplia de tareas de ingeniería de software. Los resultados podrían no ser generalizables debido a las características del conjunto de datos utilizado en este estudio.
👍