Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

STP: Self-play LLM Theorem Provers with Iterative Conjecturing and Proving

Created by
  • Haebom
Category
Empty

저자

Kefan Dong, Tengyu Ma

개요

본 논문은 대규모 언어 모델(LLM)을 이용한 형식적 정리 증명에서 고품질 훈련 데이터 부족 문제를 해결하기 위해, 수학자들이 새로운 정리를 개발하는 방식에서 영감을 얻은 Self-play Theorem Prover (STP)를 제안합니다. STP는 추측 생성자와 증명자의 두 역할을 동시에 수행하며, 서로에게 훈련 신호를 제공하는 방식으로 동작합니다. 추측 생성자는 현재 증명자가 간신히 증명 가능한 수준의 추측을 반복적으로 생성하도록 훈련되며, 증명자는 표준 전문가 반복 학습을 통해 추측을 증명하려고 시도합니다. Lean 및 Isabelle 형식 검증기를 사용한 평가 결과, LeanWorkbook 데이터셋에서 28.5%의 정리를 증명하여 기존 최고 성능(13.2%)을 두 배 이상 능가하는 성과를 달성했습니다. 또한, miniF2F-test, Proofnet-test, PutnamBench 데이터셋에서도 최첨단 성능을 기록했습니다. 코드, 모델, 데이터셋은 공개되었습니다.

시사점, 한계점

시사점:
LLM 기반 형식적 정리 증명 분야에서 고품질 훈련 데이터 부족 문제에 대한 새로운 해결책 제시.
Self-play 방식을 통해 기존 전문가 반복 학습 방식의 성능 한계를 극복.
LeanWorkbook, miniF2F-test, Proofnet-test, PutnamBench 데이터셋에서 최첨단 성능 달성.
코드, 모델, 데이터셋 공개를 통한 연구의 재현성 및 확장성 확보.
한계점:
STP의 성능 향상이 513억 토큰의 대규모 훈련 데이터에 의존적일 수 있음.
특정 형식 검증기(Lean 및 Isabelle)에 대한 평가 결과이며, 다른 시스템으로의 일반화 가능성은 추가 연구가 필요함.
PutnamBench 데이터셋에서의 성능은 여전히 개선의 여지가 있음 (8/644).
추측 생성자의 추측 난이도 조절 및 증명자의 증명 전략 개선에 대한 추가 연구 필요.
👍