본 논문은 대규모 언어 모델(LLM)의 물리학 추론 능력 평가를 위한 새로운 벤치마크인 UGPhysics를 제시합니다. UGPhysics는 영어와 중국어로 된 5,520개의 학부 수준 물리학 문제를 포함하며, 13개의 주제, 7가지 유형의 답변, 4가지 유형의 물리학 추론 기술을 다룹니다. 데이터 유출을 방지하기 위해 엄격한 검토 과정을 거쳤으며, 정답 채점을 위한 Model-Assistant Rule-based Judgment (MARJ) 파이프라인도 함께 개발되었습니다. 31개의 주요 LLM을 평가한 결과, OpenAI-o1-mini가 49.8%의 정확도를 달성했지만, 여전히 물리학 추론 능력 향상의 필요성을 보여줍니다. UGPhysics와 MARJ는 물리학 추론 AI 발전에 기여할 것으로 기대됩니다. 코드와 데이터는 GitHub에서 공개됩니다.