miniCTX는 실제 Lean 프로젝트와 교과서에서 가져온 정리를 포함하는 새로운 벤치마크입니다. 각 정리는 수만 토큰에 달하는 맥락과 연결되어 있으며, 모델은 정리 증명에 필요한 맥락을 포함하는 해당 저장소의 코드에 접근하여 정리를 증명해야 합니다. 기존의 상태 정보에만 의존하는 방법보다 맥락을 활용하는 미세 조정 및 프롬프팅 방법이 훨씬 성능이 우수함을 보여줍니다. miniF2F와 같은 기존 벤치마크에서는 이러한 맥락 활용 능력을 포착하지 못한다는 점을 밝히고 있으며, 새로운 프로젝트를 쉽게 추가할 수 있도록 자동으로 정리 증명 데이터를 추출하고 주석 처리하는 ntp-toolkit을 함께 제공합니다. miniCTX는 신경망 정리 증명기의 현실적이고 어려운 평가를 제공합니다.