Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

REAL-Prover: Retrieval Augmented Lean Prover for Mathematical Reasoning

Created by
  • Haebom

저자

Ziju Shen, Naohao Huang, Fanyi Yang, Yutong Wang, Guoxiong Gao, Tianyi Xu, Jiedong Jiang, Wanyi He, Pu Yang, Mengzhou Sun, Haocheng Ju, Peihao Wu, Bryan Dai, Bin Dong

개요

REAL-Prover는 Lean 4를 위한 새로운 오픈소스 단계적 정리 증명기로, 고등 수학 및 경시 수준을 넘어 대학 수준의 수학 문제 해결을 목표로 한다. 미세 조정된 대규모 언어 모델 REAL-Prover-v1과 검색 시스템 Leansearch-PS를 통합하여 성능을 향상시켰다. 자연어 수학 문제를 공식적인 명제로 변환하는 데이터 추출 파이프라인 HERALD-AF와 합성 데이터 수집을 위한 Lean 4 대화형 환경 Jixia-interactive를 개발하여 REAL-Prover-v1을 훈련시켰다. ProofNet 데이터셋에서 23.7%의 성공률(Pass@64)을 달성했으며, 대수 문제에 집중한 새로운 벤치마크 FATE-M에서는 56.7%(Pass@64)의 최첨단 성공률을 기록했다.

시사점, 한계점

시사점:
대학 수준의 수학 문제 해결에 도전하는 새로운 오픈소스 정리 증명기 REAL-Prover 제시.
대규모 언어 모델과 검색 시스템 통합을 통한 성능 향상.
새로운 데이터셋 생성 파이프라인 (HERALD-AF) 및 대화형 환경 (Jixia-interactive) 개발.
ProofNet 및 새로운 벤치마크 FATE-M에서 경쟁력 있는 성능 달성.
오픈소스 공개를 통한 학계의 발전 기여.
한계점:
아직 대학 수준 수학 문제 해결 성공률이 완벽하지 않음 (ProofNet 23.7%, FATE-M 56.7%).
FATE-M은 대수 문제에만 집중되어 있어, 다른 수학 분야로의 일반화 가능성에 대한 추가 연구 필요.
HERALD-AF 및 Jixia-interactive의 성능 및 확장성에 대한 추가적인 평가 필요.
더욱 복잡하고 다양한 수학 문제에 대한 적용 가능성 및 성능 검증 필요.
👍