Sign In

MA-LoT: Multi-Agent Lean-based Long Chain-of-Thought Reasoning enhances Formal Theorem Proving

Created by
  • Haebom
Category
Empty

저자

Ruida Wang, Rui Pan, Yuxin Li, Jipeng Zhang, Yizhen Jia, Shizhe Diao, Renjie Pi, Junjie Hu, Tong Zhang

개요

본 논문은 Lean4 정리 증명을 위한 다중 에이전트 기반 장기 사고 연쇄(Long Chain-of-Thought, LoT) 프레임워크인 MA-LoT를 제안합니다. 기존의 단일 LLM 기반 접근 방식과 달리, MA-LoT는 자연어(NL) 고차원 추론과 형식 언어(FL) 검증 피드백을 구조적으로 결합하여 장기적인 일관성을 유지하며 증명 생성을 수행합니다. LoT 전이 학습 파이프라인을 활용하여 장기 사고 연쇄에서 나타나는 형식적 추론 능력을 활용하며, MiniF2F-Test 데이터셋에서 기존의 GPT-4, 단일 에이전트 트리 탐색, 전체 증명 생성 방식보다 높은 54.51%의 정확도를 달성했습니다.

시사점, 한계점

시사점:
다중 에이전트 접근 방식을 통해 자연어 추론과 형식 언어 검증의 효과적인 통합을 제시.
장기 사고 연쇄(LoT)를 활용하여 증명 생성의 장기적 일관성 및 심층적 이해도 향상.
기존 단일 에이전트 방식 대비 향상된 정확도를 실험적으로 검증 (54.51% vs. GPT-4 22.95%, InternLM-Step-Prover 50.70%, DeepSeek-Prover-v1.5 48.36%).
형식 검증과 장기 사고 연쇄의 결합이 증명 생성에 대한 통찰력을 높일 수 있음을 시사.
한계점:
제안된 MA-LoT 프레임워크의 일반화 성능 및 다양한 문제 유형에 대한 적용 가능성에 대한 추가적인 연구 필요.
LoT 전이 학습 파이프라인의 구체적인 설계 및 최적화 전략에 대한 자세한 설명 부족.
다른 형식 언어나 정리 증명 시스템으로의 확장성에 대한 검토 필요.
👍