본 논문은 대규모 언어 모델(LLM)을 활용한 프로그래밍 문제 해결 과정에서의 학생 피드백 자동 생성에 대한 연구이다. GPT-4o, GPT-4o mini, GPT-4-Turbo, Gemini-1.5-pro 네 가지 LLM을 사용하여 45개의 학생 솔루션으로 구성된 벤치마크 데이터셋에서 모델의 성능을 평가하였다. LLM이 정확하고 통찰력 있는 피드백을 제공하고, 특히 학생 코드의 추론 오류를 식별하는 능력을 분석하였다. 분석 결과, 피드백 힌트의 63%는 정확하고 완전했지만, 37%는 잘못된 라인 식별, 잘못된 설명 또는 허구적인 문제 등의 오류를 포함하고 있었다.