본 논문은 최신 기반 모델의 추론 능력을 평가하기 위한 플랫폼 독립적인 벤치마크를 제시합니다. HPC 슈퍼컴퓨팅(MareNostrum 5), 클라우드 플랫폼(Nebius AI Studio), 대학 클러스터(H200 GPU 8개) 등 세 가지 컴퓨팅 패러다임에서 15개의 기반 모델을 8개 학문 분야(물리학, 수학, 화학, 경제학, 생물학, 통계학, 미적분학, 최적화)의 79개 문제에 걸쳐 평가합니다. 3단계 실험을 통해 기반 모델의 성능을 측정하고, 인프라 간의 재현성을 확인하며, 확장된 평가를 수행합니다.