Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

LLMs in the Classroom: Outcomes and Perceptions of Questions Written with the Aid of AI

Created by
  • Haebom
Category
Empty

저자

Gavin Witsken, Igor Crk, Eren Gultepe

개요

본 논문은 대규모 언어 모델(LLM)인 ChatGPT를 활용하여 작성된 시험 문제와 인간이 작성한 시험 문제를 학생들에게 무작위로 배포하고, 정답률과 LLM이 작성한 문제와 인간이 작성한 문제의 차이를 구분하는 능력을 평가하는 연구이다. SBERT를 이용하여 질문들의 벡터를 생성하고 코사인 유사도를 계산하여 ChatGPT가 작성한 질문이 강사의 질문 및 교재와 일관성이 있는지 확인하였다. 그 결과, 학생들은 ChatGPT를 사용하여 작성된 질문인지 아닌지를 구분하지 못했지만(Mann-Whitney U 검정, p = .309), LLM이 작성한 문제의 정답률은 인간이 작성한 문제보다 약 9% 낮았다(z = 2.702, p < .01). 이는 LLM이 작성한 문제가 더 어려웠거나 학생들이 강사의 질문 스타일을 더 잘 알고 있었기 때문일 수 있다. 결론적으로 LLM을 평가 문제 작성에 활용할 가능성이 있지만, 공정하고 잘 구성되고 강의 자료와 관련된 질문을 작성하는 데 주의해야 한다는 것을 시사한다.

시사점, 한계점

시사점:
LLM을 활용하여 시험 문제를 생성하는 것이 가능하지만, 문제의 난이도와 적절성에 대한 주의가 필요함을 보여줌.
학생들은 LLM이 생성한 문제와 인간이 생성한 문제를 구별하는 데 어려움을 겪음.
LLM을 활용한 문제 생성 시, 교육 자료와의 일관성 및 문제의 질을 관리하는 것이 중요함.
한계점:
본 연구는 특정 LLM(ChatGPT)과 특정 과목에 국한된 결과임. 다른 LLM이나 과목에 대한 일반화에는 제한이 있음.
학생들의 정답률 차이가 LLM 문제의 난이도 때문인지, 아니면 학생들의 강사 질문 스타일의 친숙도 때문인지 명확하게 구분하지 못함.
샘플 크기 및 연구 설계에 대한 정보가 부족하여 연구 결과의 일반화 가능성에 대한 의문이 남음.
👍