Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

On the effectiveness of LLMs for automatic grading of open-ended questions in Spanish

Created by
  • Haebom
Category
Empty

저자

German Capdehourat, Isabel Amigo, Brian Lorenzo, Joaquin Trigo

개요

본 논문은 대규모 언어 모델(LLM)을 활용한 단답형 오픈 엔드 질문에 대한 자동 채점 성능을 스페인어를 사용하는 환경에서 평가한 연구입니다. 다양한 LLM과 프롬프트 기법을 실험하여, 인간 전문가의 채점 결과와 비교 분석했습니다. 결과적으로, 고급 LLM은 정확도, 정밀도, 일관성 측면에서 좋은 성과를 보였으며, 특히 3단계 채점에서는 95% 이상, 2단계(정답/오답) 채점에서는 98% 이상의 정확도를 달성하여 교육 분야 자동화의 잠재력을 보여주었습니다. 프롬프트 스타일이 결과에 상당한 영향을 미치는 것으로 나타났습니다.

시사점, 한계점

시사점:
고급 LLM을 활용한 자동 채점 시스템이 스페인어 환경에서도 높은 정확도를 보임을 확인했습니다.
교육 분야의 자동 채점 시스템 구현 가능성을 제시했습니다.
프롬프트 엔지니어링의 중요성을 강조했습니다.
시간과 노력이 많이 드는 채점 작업의 자동화를 통한 효율성 증대 가능성을 제시했습니다.
한계점:
프롬프트 스타일의 편향성 문제가 존재합니다.
연구는 단답형 오픈 엔드 질문에만 국한됩니다.
스페인어 환경에 특화되어 있어 다른 언어로의 일반화 가능성은 추가 연구가 필요합니다.
다양한 유형의 질문과 답변에 대한 일반화 성능 검증이 필요합니다.
👍