대규모 언어 모델(LLM)이 연구 수준의 신경 정리 증명 및 자동 증명 형식화에 미치는 실제 영향은 제한적임. 본 논문은 실제 Lean 형식화 프로젝트의 연구 수준 수학에 초점을 맞춰 이러한 작업에 대한 평가 도구인 RLMEval을 소개함. RLMEval은 실제 Lean Blueprint 형식화 프로젝트를 활용하여 어려운 연구 수준의 정리에 대한 신경 정리 증명 및 자동 증명 형식화를 평가하는 것을 목표로 함. 6개의 Lean 프로젝트에서 613개의 정리를 포함하는 RLMEval에서 최첨단 모델을 평가한 결과, 기존 벤치마크의 발전이 이러한 보다 현실적인 설정으로 쉽게 이어지지 않아, 최고의 모델이 10.3%의 통과율을 달성하는 데 그침. RLMEval은 형식 수학을 위한 자동화된 추론의 발전을 이끌고 가속화하도록 설계된 새롭고 도전적인 벤치마크를 제공함.