본 논문은 대규모 언어 모델(LLM)을 활용한 단답형 오픈 엔드 질문에 대한 자동 채점 성능을 스페인어를 사용하는 환경에서 평가한 연구입니다. 다양한 LLM과 프롬프트 기법을 실험하여, 인간 전문가의 채점 결과와 비교 분석했습니다. 결과적으로, 고급 LLM은 정확도, 정밀도, 일관성 측면에서 좋은 성과를 보였으며, 특히 3단계 채점에서는 95% 이상, 2단계(정답/오답) 채점에서는 98% 이상의 정확도를 달성하여 교육 분야 자동화의 잠재력을 보여주었습니다. 프롬프트 스타일이 결과에 상당한 영향을 미치는 것으로 나타났습니다.