본 논문은 Bloom의 분류학에 따라 시험 문제 및 학습 성과를 자동 분류하는 연구를 수행했다. 600개의 문장으로 구성된 소규모 데이터셋을 사용하여 전통적인 머신 러닝 모델, 순환 신경망 아키텍처, 트랜스포머 기반 모델 및 대규모 언어 모델(LLM)을 평가했다. 각 모델은 다양한 전처리 및 데이터 증강 전략 하에서 평가되었으며, SVM과 데이터 증강을 결합한 모델이 가장 우수한 성능을 보였다. LLM의 제로샷 평가에서는 OpenAI와 Gemini가 가장 높은 정확도를 달성했다.