본 논문은 miniF2F 벤치마크의 수학 올림피아드 문제에 참여하는 AI 시스템 관점에서, 자연어 문제 이해, Lean 언어 형식화, 증명 과정을 분석합니다. SoTA 모델을 사용한 경우 약 36%의 정확도를 보이며, 이는 자동 형식화 및 정리 증명 문헌에서 보고된 개별 SoTA 정확도(97%, 69%)보다 현저히 낮습니다. miniF2F 문제의 절반 이상에서 형식 및 비형식 진술 간의 불일치로 인해 정확도가 감소함을 발견하고, 모든 오류, 불일치 및 단순화를 수정하여 완전히 검증된 형식 및 비형식 진술과 증명을 갖춘 miniF2F-v2를 제시합니다. miniF2F-v2에서 전체 정리 증명 파이프라인을 평가한 결과 70%의 정확도를 달성했으며, 이는 기존 miniF2F의 40%에서 크게 향상된 수치입니다. 본 연구는 보다 높은 품질의 벤치마크가 형식적 추론 분야의 발전을 더 잘 평가하고, 자동 형식화 및 정리 증명 모델의 실패 및 성공 모드를 더 잘 진단하는 데 도움이 될 수 있음을 시사합니다.