본 논문은 DeepSeek, ChatGPT, Claude와 같은 최첨단 대규모 언어 모델(LLM)들의 과학 컴퓨팅, 특히 편미분 방정식(PDE) 해결 능력을 비교 분석합니다. 전통적인 수치 해석 문제와 과학적 기계 학습 기법을 활용한 PDE 문제 해결 능력을 평가하며, 신경 작용자 학습을 위한 입력 함수 공간 정의 등 비자명적인 의사 결정이 필요한 실험들을 설계했습니다. 결과적으로 추론 기능이 강화된 모델들이 비추론 모델들보다 훨씬 우수한 성능을 보였으며, ChatGPT o3-mini-high가 가장 빠른 추론 속도를 보였다는 것을 확인했습니다.