FEABench: Evaluating Language Models on Multiphysics Reasoning Ability
Created by
Haebom
저자
Nayantara Mudur, Hao Cui, Subhashini Venugopalan, Paul Raccuglia, Michael P. Brenner, Peter Norgaard
개요
FEABench는 대규모 언어 모델(LLM)과 LLM 에이전트가 유한 요소 해석(FEA)을 사용하여 물리, 수학 및 공학 문제를 시뮬레이션하고 해결하는 능력을 평가하기 위한 벤치마크입니다. 자연어 문제 설명을 이해하고 COMSOL Multiphysics® FEA 소프트웨어를 조작하여 답을 계산함으로써 LLM이 문제를 종합적으로 해결하는 능력을 조사하기 위한 포괄적인 평가 방식을 제시합니다. 또한, 응용 프로그래밍 인터페이스(API)를 통해 소프트웨어와 상호 작용하고, 출력을 검토하고, 도구를 사용하여 여러 반복을 통해 솔루션을 개선할 수 있는 능력을 갖춘 언어 모델 에이전트를 설계했습니다. 최고 성능 전략은 88%의 시간 동안 실행 가능한 API 호출을 생성합니다. 본 벤치마크의 문제들을 해결하기 위해 FEA 소프트웨어와 상호 작용하고 작동할 수 있는 LLM은 공학 자동화의 한계를 넓힐 것입니다. 이러한 기능을 얻으면 LLM의 추론 능력이 수치 해석기의 정밀도로 향상되고 실제 세계의 복잡한 문제를 해결할 수 있는 자율 시스템의 개발이 발전합니다. 코드는 https://github.com/google/feabench 에서 이용 가능합니다.