[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SWE-MERA: Un punto de referencia dinámico para la evaluación de modelos lingüísticos de gran tamaño en tareas de ingeniería de software

Created by
  • Haebom

Autor

Pavel Adamenko, Mikhail Ivanov, Aidar Valeev, Rodion Levichev, Pavel Zadorozhny, Ivan Lopatin, Dmitry Babayev, Alena Fenogenova, Valentin Malykh

Describir

Este artículo señala la __T1259__ de los benchmarks existentes utilizados en el campo de la ingeniería de software, especialmente el conjunto de datos SWE-bench, y propone un nuevo benchmark, SWE-MERA, para resolver este problema. SWE-bench señala que el problema de contaminación de datos (fuga de soluciones directas y casos de prueba inapropiados) es grave y reduce la fiabilidad. SWE-MERA busca resolver este problema mediante la recopilación automática de problemas reales de GitHub y una rigurosa verificación de calidad. Actualmente proporciona alrededor de 10.000 tareas potenciales y 300 muestras, y el resultado de la evaluación con el agente de codificación Aider muestra claramente la diferencia de rendimiento de los LLM de vanguardia. El rendimiento de más de una docena de LLM de vanguardia se evalúa en tareas recopiladas entre septiembre de 2024 y junio de 2025.

Takeaways, Limitations

Takeaways:
Revelamos problemas de contaminación de datos en el conjunto de datos SWE-bench existente y sugerimos la necesidad de un nuevo punto de referencia.
Proponemos un benchmark práctico de SWE-MERA utilizando problemas reales de GitHub y construimos un proceso automatizado de recopilación de datos y verificación de calidad.
Comparamos y evaluamos el desempeño de varios LLM de última generación y demostramos la diferenciación del modelo.
Contribuir al avance del LLM en Ingeniería de Software a través de puntos de referencia dinámicos actualizados continuamente.
Limitations:
El punto de referencia tiene una escala limitada: sólo hay 300 muestras de 10 000 tareas potenciales actualmente disponibles.
Es posible que falten detalles específicos sobre el proceso de garantía de calidad de SWE-MERA.
Los resultados de la evaluación pueden depender de un agente de codificación específico.
Dado que este conjunto de datos se basa en problemas de GitHub, puede estar sesgado hacia ciertos tipos de problemas de ingeniería de software.
👍