본 논문은 대규모 언어 모델(LLM)이 복잡한 과학 문제 해결 능력을 향상시켰지만, 인간 전문가처럼 간결하고 원리에 기반한 추론을 수행하지 못하고 길고 불투명한 해결책을 생성하는 한계를 지적합니다. 이러한 차이점을 해결하기 위해, 전문가는 쉽게 풀 수 있지만 원리에 기반한 추론 없이는 LLM이 풀기 어려운 새로운 물리 추론 벤치마크인 PhySense를 제시합니다. 다양한 최첨단 LLM과 프롬프트 유형을 평가한 결과, 전문가와 같은 추론 경로를 따르지 못하는 일관된 실패를 보였으며, 효율적이고 견고하며 해석 가능한 원리 기반 과학 추론을 갖춘 AI 시스템 개발에 대한 통찰력을 제공합니다.