CuDIP: Enhancing Theorem Proving in LLMs via Curriculum Learning-based Direct Preference Optimization

작성자

Haebom

카테고리

비어 있음

저자

Shuming Shi, Ruobing Zuo, Gaolei He, Jianlin Wang, Chenyang Xu, Zhengfeng Yang

개요

본 논문은 대규모 언어 모델(LLM)을 이용한 자동 정리 증명(ATP)에서, 기존의 지도 학습 기반 방법들의 한계를 극복하기 위해 직접적 선호도 최적화(DPO) 기법을 도입한 새로운 방법인 CuDIP(Curriculum Learning-based DPO Iterative Theorem Proving)을 제시합니다. CuDIP은 LLM과 기존 정리 증명 데이터를 활용하여 다양하고 고품질의 선호도 데이터를 생성하는 방법을 제안하며, 이를 커리큘럼 학습과 통합하여 반복적으로 정리 증명 모델을 미세 조정합니다. MiniF2F 및 ProofNet 데이터셋을 이용한 실험 결과를 통해 제안된 방법의 효과를 입증합니다.