Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FEABench: Evaluating Language Models on Multiphysics Reasoning Ability

Created by
  • Haebom

저자

Nayantara Mudur, Hao Cui, Subhashini Venugopalan, Paul Raccuglia, Michael P. Brenner, Peter Norgaard

개요

FEABench는 대규모 언어 모델(LLM)과 LLM 에이전트가 유한 요소 해석(FEA)을 사용하여 물리, 수학 및 공학 문제를 시뮬레이션하고 해결하는 능력을 평가하기 위한 벤치마크입니다. 자연어 문제 설명을 이해하고 COMSOL Multiphysics® FEA 소프트웨어를 조작하여 답을 계산함으로써 LLM이 문제를 종합적으로 해결하는 능력을 조사하기 위한 포괄적인 평가 방식을 제시합니다. 또한, 응용 프로그래밍 인터페이스(API)를 통해 소프트웨어와 상호 작용하고, 출력을 검토하고, 도구를 사용하여 여러 반복을 통해 솔루션을 개선할 수 있는 능력을 갖춘 언어 모델 에이전트를 설계했습니다. 최고 성능 전략은 88%의 시간 동안 실행 가능한 API 호출을 생성합니다. 본 벤치마크의 문제들을 해결하기 위해 FEA 소프트웨어와 상호 작용하고 작동할 수 있는 LLM은 공학 자동화의 한계를 넓힐 것입니다. 이러한 기능을 얻으면 LLM의 추론 능력이 수치 해석기의 정밀도로 향상되고 실제 세계의 복잡한 문제를 해결할 수 있는 자율 시스템의 개발이 발전합니다. 코드는 https://github.com/google/feabench 에서 이용 가능합니다.

시사점, 한계점

시사점:
LLM이 FEA 소프트웨어와 상호 작용하여 복잡한 공학 문제를 해결하는 능력을 평가하는 벤치마크 FEABench 제시.
LLM의 추론 능력과 수치 해석기의 정밀도를 결합하여 실제 세계 문제 해결에 기여 가능성 제시.
공학 자동화의 새로운 가능성 제시 및 자율 시스템 개발 발전에 기여.
88%의 실행 가능한 API 호출 생성 성공률 달성.
한계점:
FEABench 벤치마크의 범위와 일반화 가능성에 대한 추가적인 연구 필요.
다양한 유형의 FEA 문제 및 LLM에 대한 벤치마크의 확장성 검토 필요.
COMSOL Multiphysics® 소프트웨어에 대한 의존성으로 인한 다른 FEA 소프트웨어로의 확장성 제약 가능성.
LLM 에이전트의 성능 개선을 위한 추가적인 연구 및 개발 필요.
👍