Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Assessing Large Language Models for Automated Feedback Generation in Learning Programming Problem Solving

Created by
  • Haebom
Category
Empty

저자

Priscylla Silva, Evandro Costa

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 프로그래밍 문제 해결 과정에서의 학생 피드백 자동 생성에 대한 연구이다. GPT-4o, GPT-4o mini, GPT-4-Turbo, Gemini-1.5-pro 네 가지 LLM을 사용하여 45개의 학생 솔루션으로 구성된 벤치마크 데이터셋에서 모델의 성능을 평가하였다. LLM이 정확하고 통찰력 있는 피드백을 제공하고, 특히 학생 코드의 추론 오류를 식별하는 능력을 분석하였다. 분석 결과, 피드백 힌트의 63%는 정확하고 완전했지만, 37%는 잘못된 라인 식별, 잘못된 설명 또는 허구적인 문제 등의 오류를 포함하고 있었다.

시사점, 한계점

시사점: LLM이 프로그래밍 교육에서 학생 피드백 자동 생성 도구로서의 잠재력을 가지고 있음을 보여준다. 63%의 정확도는 향후 발전 가능성을 시사한다.
한계점: LLM 기반 피드백의 37%가 오류를 포함하고 있으며, 이는 잘못된 라인 식별, 잘못된 설명 또는 허구적인 문제 등 다양한 형태로 나타난다. 교육적 활용을 위해서는 신뢰성 향상 및 오류 최소화를 위한 개선이 필요하다. 현재로서는 LLM의 피드백을 무조건 신뢰하기 어렵다는 점을 시사한다.
👍