본 논문은 재료과학 분야에 특화된 대규모 언어 모델(LLM)의 지식과 추론 능력 평가를 위한 새로운 벤치마크 MSQA를 제시합니다. MSQA는 7개의 재료과학 하위 분야를 아우르는 1,757개의 대학원 수준 질문 (상세 설명 응답 및 옳고 그름 판별 형식)으로 구성되어 있으며, 정확한 사실적 지식과 다단계 추론 능력을 요구합니다. 10개의 최첨단 LLM을 대상으로 한 실험 결과, API 기반 독점 LLM은 최대 84.5%의 정확도를 달성한 반면, 오픈소스 LLM은 60.5% 정도에 그쳤고, 특정 분야 LLM은 과적합 및 분포 변화로 인해 성능이 저조했습니다. MSQA는 재료과학 분야 LLM의 사실적 지식과 추론 능력을 종합적으로 평가하는 최초의 벤치마크입니다.