Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
SPICE: un proceso automatizado de etiquetado SWE-Bench para la claridad de problemas, la cobertura de pruebas y la estimación del esfuerzo
Created by
Haebom
Autor
Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Aaditya Bhatia, Haoxiang Zhang, Yihao Chen, Zhilong Chen, Arthur Leung, Dayi Lin, Boyuan Chen, Ahmed E. Hassan
Describir
SPICE es un pipeline escalable y automatizado para generar conjuntos de datos etiquetados de alta calidad, esenciales para el aprendizaje y la evaluación de modelos fundamentales en ingeniería de software. Anota automáticamente conjuntos de datos de estilo SWE-bench con claridad de problemas, cobertura de pruebas y estimación del esfuerzo. Combina la exploración de código contextual, la incitación basada en evidencia y el consenso multipaso para producir etiquetas que se asemejan mucho a las anotaciones de expertos. Se basa en la experiencia de etiquetar más de 800 instancias de SWE-Gym y logra una alta concordancia con los datos verificados de SWE-bench etiquetados por humanos. Reduce drásticamente el costo de etiquetar 1000 instancias de aproximadamente $100,000 para la anotación manual a $5.10. También lanzamos SPICE Bench, un nuevo conjunto de datos compuesto por 6802 instancias etiquetadas con SPICE de 291 proyectos de código abierto en SWE-Gym.
Takeaways, Limitations
•
Takeaways:
◦
Reducir significativamente el costo de construir conjuntos de datos grandes y de alta calidad para entrenar modelos fundamentales de ingeniería de software.
◦
Contribuya a la comunidad de investigación a través de las herramientas SPICE y los conjuntos de datos SPICE Bench (proporcionando un conjunto de datos más de 13 veces más grande que SWE-bench Verified).
◦
Consiga una precisión de nivel experto con nuestro proceso de etiquetado automatizado.
•
Limitations:
◦
El rendimiento de SPICE puede variar según las características del código base utilizado.
◦
Los tipos de anotación admitidos actualmente pueden ser limitados (claridad del problema, cobertura de la prueba, estimación del esfuerzo).
◦
Dado que este no es un sistema totalmente automatizado, es posible que se requiera alguna verificación o ajuste manual (por ejemplo, un proceso de consenso de múltiples pasadas).