Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

REAL-Prover: Retrieval Augmented Lean Prover for Mathematical Reasoning

Created by
  • Haebom

저자

Ziju Shen, Naohao Huang, Fanyi Yang, Yutong Wang, Guoxiong Gao, Tianyi Xu, Jiedong Jiang, Wanyi He, Pu Yang, Mengzhou Sun, Haocheng Ju, Peihao Wu, Bryan Dai, Bin Dong

개요

REAL-Prover는 Lean 4를 위한 새로운 오픈소스 단계적 정리 증명기로, 고등학교 및 경시 수준의 수학 문제 해결에 있어 눈에 띄는 발전을 이룬 기존 형식적 정리 증명기의 한계를 뛰어넘고자 개발되었습니다. 대학 수준의 수학 문제 해결 성능을 향상시키기 위해 미세 조정된 대규모 언어 모델(REAL-Prover-v1)과 검색 시스템(Leansearch-PS)을 통합하였습니다. REAL-Prover-v1을 훈련하기 위해 자연어 수학 문제를 형식적 명제로 변환하는 데이터 추출 파이프라인인 HERALD-AF와 합성 데이터 수집을 용이하게 하는 새로운 오픈소스 Lean 4 대화형 환경인 Jixia-interactive를 개발했습니다. ProofNet 데이터셋에서 지도 학습 미세 조정만으로 최첨단 모델들과 비슷한 23.7%(Pass@64)의 성공률을 달성했습니다. 대수 문제에 중점을 둔 새로운 벤치마크인 FATE-M에서 56.7%(Pass@64)의 최첨단 성공률을 달성하여 성능을 추가적으로 평가했습니다.

시사점, 한계점

시사점:
대학 수준 수학 문제 해결에 효과적인 새로운 오픈소스 정리 증명기 REAL-Prover 제시
대규모 언어 모델과 검색 시스템 통합을 통한 성능 향상
자연어 수학 문제를 형식적 명제로 변환하는 데이터 파이프라인 HERALD-AF 및 대화형 환경 Jixia-interactive 개발
ProofNet 및 FATE-M 데이터셋에서 최첨단 성능 달성
한계점:
현재는 대수 문제에 초점을 맞추고 있어 다른 수학 분야로의 일반화 가능성에 대한 추가 연구 필요
FATE-M 데이터셋은 새롭게 제시된 것이므로, 다른 기존 벤치마크와의 비교 분석이 더 필요함
Pass@64 성공률만 제시되어 다른 평가 지표를 통한 추가적인 성능 분석 필요
👍