Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error

Created by
  • Haebom
Category
Empty

저자

Shu-Xun Yang, Cunxiang Wang, Yidong Wang, Xiaotao Gu, Minlie Huang, Jie Tang

개요

본 논문은 대규모 언어 모델(LLM)의 수학적 능력 평가를 위한 새로운 방법론인 StepMathAgent를 제안합니다. 기존 평가 방법의 한계인 최종 답변에만 집중하여 부정확하고 해석하기 어려운 결과를 초래하는 문제점을 해결하기 위해, StepMathAgent는 Tree-of-Error 기반의 수학적 과정 평가 에이전트로, 논리적 단계 분할, 단계 점수 매기기, 점수 집계, 오류 트리 생성 등의 내부 연산과 난이도 조정, 단순성 평가, 완전성 검증, 형식 평가 등의 외부 확장 모듈을 통합합니다. 또한, 다양한 유형, 과목, 난이도로 구성된 200개의 고품질 수학 문제에서 파생된 1,000개의 단계별 과정 평가 인스턴스로 이루어진 StepMathBench라는 벤치마크를 소개합니다. StepMathBench 실험 결과, StepMathAgent는 기존 최첨단 방법들을 능가하며, 사람의 평가 기준과 일치하고 다양한 상황에 적용 가능함을 보여줍니다. 코드와 데이터는 https://github.com/SHU-XUN/StepMathAgent 에서 이용 가능합니다.

시사점, 한계점

시사점:
LLM의 수학적 추론 과정을 단계별로 평가하여 더욱 정확하고 해석 가능한 결과를 제공하는 새로운 평가 방법 제시.
기존 방법보다 우수한 성능을 보이는 StepMathAgent의 개발 및 공개.
다양한 유형과 난이도의 수학 문제를 포함하는 StepMathBench 벤치마크 제공.
사람의 평가 기준과 더욱 잘 맞는 LLM 평가 가능성 제시.
한계점:
StepMathBench의 규모(1,000개 인스턴스)가 더욱 확장될 필요가 있음.
다양한 유형의 수학 문제에 대한 일반화 성능에 대한 추가 연구 필요.
StepMathAgent의 성능에 대한 외부 검증이 더 필요함.
StepMathAgent의 확장 모듈들의 성능 및 신뢰도에 대한 추가 분석 필요.
👍