Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

La rúbrica es todo lo que necesita: Cómo mejorar la evaluación de código basada en LLM con rúbricas específicas para cada pregunta

Created by
  • Haebom

Autor

Aditya Pathak, Rachit Gandhi, Vaibhav Uttam, Arnav Ramamoorthy, Pratyush Ghosh, Aaryan Raj Jindal, Shreyash Verma, Aditya Mittal, Aashna Ased, Chirag Khatri, Yashwanth Nakka, Devansh, Jagat Sesh Challa, Dhruv Kumar

Describir

Este artículo se centra en la evaluación de código mediante modelos de lenguaje a gran escala (LLM) y propone un novedoso enfoque multiagente que utiliza rúbricas específicas para cada pregunta en lugar de las rúbricas tradicionales, independientes de cada pregunta. Si bien investigaciones previas se han centrado en la generación de código mediante LLM, la investigación sobre evaluación de código sigue siendo escasa, y este artículo busca subsanar esta deficiencia. Para abordar la falta de conjuntos de datos de evaluación adecuados, presentamos dos nuevos conjuntos de datos: uno para tareas de estructuras de datos y algoritmos (150 envíos) y otro para tareas de programación orientada a objetos (80 envíos). Además de métricas estándar como el coeficiente de correlación de Spearman y el coeficiente kappa de Cohen, proponemos una novedosa métrica, la "clemencia", que cuantifica el rigor de las evaluaciones de expertos. Los resultados experimentales demuestran que las rúbricas específicas para cada pregunta mejoran la evaluación lógica del código en un entorno educativo, proporcionando una mejor retroalimentación que va más allá de la mera corrección sintáctica y se alinea con los objetivos educativos.

Takeaways, Limitations

Takeaways:
Demostración de la utilidad de las rúbricas específicas de cada pregunta en la evaluación de código basada en LLM.
Presentando nuevas posibilidades para la evaluación de código utilizando LLM en entornos educativos.
Propuesta de ‘Leniencia’, una nueva métrica para medir el rigor de la evaluación del código.
Proporcionar un nuevo conjunto de datos de evaluación en los campos de estructuras de datos y algoritmos y programación orientada a objetos.
Limitations:
El tamaño del conjunto de datos presentado es relativamente pequeño.
Se necesita más investigación sobre la generalización en diferentes lenguajes de programación y tipos de tareas.
Es necesaria una mayor validación de la objetividad y fiabilidad del indicador de “clemencia”.
Es necesario automatizar y mejorar la eficiencia de la generación de criterios de evaluación específicos de cada pregunta.
👍