본 연구는 40억 파라미터 미만의 소형 언어 모델(SLM)의 고등학교 물리 추론 능력을 조사한 연구입니다. Llama 3.2, Phi 4 Mini, Gemma 3, Qwen 시리즈 등 최첨단 SLM들을 대상으로, OpenStax 고등학교 물리 교과서를 바탕으로 블룸의 분류 체계에 따라 주석이 달린 포괄적인 물리 데이터셋을 개발했습니다. 라텍스와 일반 텍스트 수학 표기법을 포함하고, 아시아, 아프리카, 남미/오스트레일리아 지역 문화적 맥락에 맞춰 문제를 변형한 하위 데이터셋도 포함했습니다. Google의 Gemini 2.5 Flash를 이용하여 답변 및 추론 과정의 정확성과 계산 정확도를 평가했습니다. 그 결과, SLM 간 성능 차이가 크게 나타났으며, Qwen 3 1.7B는 높은 답변 정확도(85%)를 보였지만 완벽한 추론 정확도는 현저히 낮았습니다(38%). 수학 표기법 형식은 성능에 미미한 영향을 미쳤습니다. SLM은 물리 주제에 따라 성능 차이를 보였고, 인지적 및 지식적 복잡성이 증가함에 따라 추론 품질이 저하되는 경향을 보였습니다. 특히, 우수한 성능을 보이는 모델일수록 다양한 문화적 맥락에서 추론의 일관성이 유지되었습니다. 결론적으로 SLM은 정답을 찾는 능력은 있지만, 근본적인 추론 과정에는 결함이 많아 패턴 인식에 과도하게 의존하는 경향이 있음을 시사합니다. 따라서 물리 교육 도구로서 SLM의 신뢰성을 높이려면 정답 정확도보다 진정한 이해와 타당하고 검증 가능한 추론 과정 생성을 우선시하는 개발이 필요합니다.