Sign In

Cross-Platform Evaluation of Reasoning Capabilities in Foundation Models

Created by
  • Haebom
Category
Empty

저자

J. de Curto, I. de Zarza, Pablo Garcia, Jordi Cabot

개요

본 논문은 최신 기반 모델의 추론 능력을 평가하기 위한 플랫폼 독립적인 벤치마크를 제시합니다. HPC 슈퍼컴퓨팅(MareNostrum 5), 클라우드 플랫폼(Nebius AI Studio), 대학 클러스터(H200 GPU 8개) 등 세 가지 컴퓨팅 패러다임에서 15개의 기반 모델을 8개 학문 분야(물리학, 수학, 화학, 경제학, 생물학, 통계학, 미적분학, 최적화)의 79개 문제에 걸쳐 평가합니다. 3단계 실험을 통해 기반 모델의 성능을 측정하고, 인프라 간의 재현성을 확인하며, 확장된 평가를 수행합니다.

시사점, 한계점

기존의 스케일링 가설에 도전합니다.
모델 크기보다 훈련 데이터 품질이 더 중요함을 보여줍니다.
교육, 생산 및 연구 환경에서 모델 선택에 대한 실용적인 지침을 제공합니다.
세 가지 인프라 방법론과 79개 문제 벤치마크는 기반 모델의 진화에 따른 추론 능력의 장기적인 추적을 가능하게 합니다.
👍