본 논문은 대규모 언어 모델(LLM)의 엔지니어링 작업 적용에 대한 기존 평가의 한계점, 즉 단순화된 사용 사례와 임의적인 시나리오에 의존하는 점을 지적한다. 이를 해결하기 위해, 실제 엔지니어링 시나리오에서 도출된 100개 이상의 질문으로 구성된 데이터베이스를 구축하여, 제품 설계, 예후, 진단 등 핵심 역량을 평가한다. 4개의 최첨단 LLM을 대상으로 실험한 결과, LLM은 기본적인 시간적, 구조적 추론에는 강점을 보이지만, 추상적 추론, 형식적 모델링, 맥락에 민감한 엔지니어링 논리에는 어려움을 겪는다는 것을 보여준다.