본 논문은 대규모 언어 모델(LLM)의 물리학 추론 능력 평가를 위한 새로운 벤치마크인 UGPhysics를 제안합니다. UGPhysics는 영어와 중국어로 된 5,520개의 학부 수준 물리 문제를 포함하며, 13개의 과목, 7가지 답변 유형, 4가지 물리 추론 기술을 다룹니다. 데이터 유출을 방지하기 위해 엄격하게 검토되었으며, 정답 여부 판단을 위한 MARJ(Model-Assistant Rule-based Judgment) 파이프라인도 함께 개발되었습니다. 31개의 주요 LLM을 평가한 결과, OpenAI-o1-mini가 49.8%의 정확도를 달성했으며, 수학 능력뿐 아니라 강력한 물리 추론 능력을 갖춘 모델의 필요성을 강조했습니다. UGPhysics와 MARJ는 물리 추론 분야의 AI 발전을 촉진할 것으로 기대됩니다. 코드와 데이터는 GitHub에서 공개됩니다.