본 논문은 대규모 언어 모델(LLM)의 물리 교육 내 문제 해결 능력을 평가하고, 이를 교육 및 평가에 통합하는 데 대한 시사점을 제시합니다. 독일 물리 올림피아드 참가자들의 성적과 GPT-4o 및 reasoning-optimized 모델인 o1-preview의 성적을 비교 분석하여, 두 LLM 모두 올림피아드 수준의 물리 문제 해결에서 인간 참가자보다 더 나은 성능을 보임을 밝혔습니다. 특히, o1-preview는 GPT-4o 및 인간 참가자보다 훨씬 우수한 성적을 기록했습니다. 프롬프트 방식의 변화는 GPT-4o의 성능에 거의 영향을 미치지 않았습니다. 연구 결과를 바탕으로 물리 교육에서 총괄 평가 및 형성 평가 설계에 대한 시사점과 평가의 무결성 유지 및 학생들의 LLM 비판적 활용 지원 방안을 논의합니다.