본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 평가하기 위해, 공학 분야에 특화된 벤치마크인 EngChain을 소개한다. EngChain은 과학적 원리, 정량적 모델링, 실질적 제약 조건을 통합하는 공학적 추론 능력을 평가하는 데 초점을 맞춘다. 90개의 문제로 구성되어 있으며, 3개의 공학 분야, 9개의 도메인, 20개의 세부 분야를 포함한다. 문제들은 다양성을 보장하고 오염 위험을 제거하기 위해 고도로 무작위화된 기호 템플릿에서 생성된다. 최종 답변 정확도를 넘어, 각 추론 단계의 수치적, 의미적 유효성을 정량적으로 검증하고, LLM-As-A-Judge 시스템을 통해 식별된 추론 오류를 질적으로 분류하는 2단계 평가 방식을 제안한다.