최첨단 LLM이 올림피아드 문제 풀이에서 괄목할 만한 발전을 이루어 IMO 2025 문제 대부분을 해결할 수 있게 되었으며, 선도적인 시스템은 6문제 중 5문제를 해결하는 것으로 보고되었다. 본 연구에서는 이러한 모델들이 증명을 얼마나 잘 평가할 수 있는지, 즉 오류를 감지하고, 심각성을 판단하며, 이분법적인 정답 여부를 넘어 공정한 점수를 부여하는 능력을 평가한다. 90개의 Gemini 2.5 Pro가 생성한 해답으로 구성된 코퍼스를 사용하여 증명 분석 능력을 연구하고, 오류를 상세히 주석 처리하여 1-4 척도로 평가하며, MathArena 해답 세트를 사용하여 IMO/USAMO 2025에 0-7 척도로 점수를 매긴다. 분석 결과 모델은 부정확한 해답(미묘하게 부정확한 해답 포함)을 안정적으로 식별할 수 있지만, 부분 점수를 할당하는 방식에 캘리브레이션 격차가 나타났다. 이러한 문제를 해결하기 위해, 참조 해답을 추출하고 분석하며 문제별 채점 기준을 자동적으로 도출하는 에이전트 기반 워크플로우를 도입하여 다단계 채점 프로세스를 수행한다. 채점 워크플로우에 대한 다양한 설계 선택을 구현하고 비교하며, 장단점을 평가한다. 주석 처리된 코퍼스 및 MathArena에서 제안된 워크플로우는 인간의 채점 결과와 더 높은 일치도를 보이며, 부분 점수를 일관성 있게 처리하는 성능을 보였다. 모든 코드, 데이터, 프롬프트 및 로그를 공개하여 향후 연구를 지원한다.