Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Enumerate-Conjecture-Prove: Formally Solving Answer-Construction Problems in Math Competitions

Created by
  • Haebom

저자

Jialiang Sun, Yuzhi Tang, Ao Li, Chris J. Maddison, Kuldeep S. Meel

개요

본 논문은 수학 경시 문제 풀이를 위한 새로운 신경 기호 방법인 Enumerate-Conjecture-Prove (ECP) 프레임워크를 제안합니다. ECP는 LLMs 기반의 열거 및 패턴 기반 추측과 형식적 정리 증명을 통합하는 모듈형 접근 방식을 사용합니다. 논문에서는 다양한 수학 경시 문제 3,431개로 구성된 새로운 데이터셋 ConstructiveBench를 소개하고, ECP가 gpt-4.1-mini 모델과 함께 사용되었을 때 Chain-of-Thought (CoT) 기준선(14.54%)보다 훨씬 향상된 45.06%의 정확도를 달성함을 보여줍니다. 또한, ECP가 생성한 답변을 DeepSeek-Prover-V2-7B 모델과 결합하여 25.01%의 정확도로 858개 문제에 대한 정확한 증명을 생성하는 것을 확인했습니다. 이는 기존의 기호적 방법(9.86%)에 비해 큰 향상입니다. 코드와 데이터셋은 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
LLMs의 창의적인 답변 생성 능력과 기호적 증명 시스템의 엄밀성을 결합한 새로운 neuro-symbolic 접근 방식 제시.
수학 문제 풀이 성능을 크게 향상시키는 ECP 프레임워크의 효과성 입증.
수학 경시 문제 풀이를 위한 새로운 대규모 데이터셋 ConstructiveBench 공개.
LLM과 기호적 증명 시스템의 효율적인 통합 방안 제시.
한계점:
ConstructiveBench 데이터셋의 범위와 일반화 가능성에 대한 추가 연구 필요.
ECP 프레임워크의 다른 LLM 및 증명 시스템에 대한 적용성 및 일반화 성능 평가 필요.
더 복잡하고 어려운 수학 문제에 대한 ECP의 성능 평가 필요.
ECP의 계산 비용 및 효율성에 대한 추가적인 분석 필요.
👍