[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ParaStudent: Generar y evaluar código estudiantil realista enseñando a los LLM a esforzarse

Created by
  • Haebom

Autor

Mihran Miroyan, Rose Niousha, Joseph E. González, Gireeja Ranade, Narges Norouzi

Describir

Este artículo presenta el estudio ParaStudent, que investiga si los modelos lingüísticos a gran escala (LLM) pueden generar códigos incompletos, repetitivos y estilísticamente diversos, como los de estudiantes reales. Utilizando un conjunto de datos de códigos enviados por estudiantes, recopilados durante varios semestres, diseñamos experimentos de baja y alta resolución para modelar el progreso de los estudiantes y evaluar los resultados del código en términos semánticos, funcionales y estilísticos. Demostramos que el ajuste fino nos permite capturar con mayor precisión los procesos de generación de código de estudiantes reales, los patrones de error, las mejoras incrementales y los cambios de estilo. En conclusión, demostramos que el modelado realista del código de estudiantes requiere capturar la dinámica de aprendizaje mediante la generación consciente del contexto, el modelado temporal y la evaluación multidimensional. Los códigos experimentales y de evaluación están disponibles en https://github.com/mmiroyan/ParaStudent .

Takeaways, Limitations

Takeaways:
Demostramos que el LLM se puede utilizar para imitar de forma más realista el proceso de generación de código de estudiantes reales.
El ajuste fino sugiere que los patrones de error, las mejoras incrementales y los cambios de estilo en el código de los estudiantes se pueden capturar con mayor precisión.
Enfatiza la importancia de la generación consciente del contexto, el modelado temporal y la evaluación multidimensional para el modelado realista del código estudiantil.
Limitations:
El conjunto de datos utilizado en el estudio se limitó a un curso introductorio de programación específico, lo que requirió más investigación sobre generalización.
Es necesaria una mayor validación de la objetividad y confiabilidad de los criterios de evaluación multidimensional.
Puede que todavía sea difícil para un LLM imitar perfectamente el proceso de pensamiento del propio estudiante.
👍