Sign In

EngChain: A Symbolic Benchmark for Verifiable Multi-Step Reasoning in Engineering

Created by
  • Haebom
Category
Empty

저자

Ayesha Gull, Muhammad Usman Safder, Rania Elbadry, Preslav Nakov, Zhuohan Xie

개요

본 논문은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 평가하기 위해, 공학 분야에 특화된 벤치마크인 EngChain을 소개한다. EngChain은 과학적 원리, 정량적 모델링, 실질적 제약 조건을 통합하는 공학적 추론 능력을 평가하는 데 초점을 맞춘다. 90개의 문제로 구성되어 있으며, 3개의 공학 분야, 9개의 도메인, 20개의 세부 분야를 포함한다. 문제들은 다양성을 보장하고 오염 위험을 제거하기 위해 고도로 무작위화된 기호 템플릿에서 생성된다. 최종 답변 정확도를 넘어, 각 추론 단계의 수치적, 의미적 유효성을 정량적으로 검증하고, LLM-As-A-Judge 시스템을 통해 식별된 추론 오류를 질적으로 분류하는 2단계 평가 방식을 제안한다.

시사점, 한계점

시사점:
공학 분야의 복잡한 추론 능력을 평가하는 새로운 벤치마크 제공.
다양한 공학 분야 및 문제 유형을 포괄하여 일반화 가능성 확보.
추론 단계별 검증 및 오류 분류를 통해 더 심층적인 평가 가능.
LLM-As-A-Judge 시스템을 활용하여 자동화된 평가 시스템 구축.
한계점:
벤치마크의 구체적인 성능 평가 결과 및 개선 사항에 대한 정보 부족.
LLM-As-A-Judge 시스템의 정확성 및 신뢰성에 대한 추가 검증 필요.
3개의 공학 분야로 제한되어, 벤치마크의 적용 범위가 제한적일 수 있음.
👍