Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows

Created by
  • Haebom

저자

Hamed Mahdavi (Pennsylvania State University), Pouria Mahdavinia (Pennsylvania State University), Samira Malek (Pennsylvania State University), Pegah Mohammadipour (Pennsylvania State University), Alireza Hashemi (City University of New York), Majid Daliri (New York University), Alireza Farhadi (Amirkabir University of Technology), Amir Khasahmadi (Autodesk), Niloofar Mireshghallah (Carnegie Mellon University), Vasant Honavar (Pennsylvania State University)

개요

최첨단 LLM이 올림피아드 문제 풀이에서 괄목할 만한 발전을 이루어 IMO 2025 문제 대부분을 해결할 수 있게 되었으며, 선도적인 시스템은 6문제 중 5문제를 해결하는 것으로 보고되었다. 본 연구에서는 이러한 모델들이 증명을 얼마나 잘 평가할 수 있는지, 즉 오류를 감지하고, 심각성을 판단하며, 이분법적인 정답 여부를 넘어 공정한 점수를 부여하는 능력을 평가한다. 90개의 Gemini 2.5 Pro가 생성한 해답으로 구성된 코퍼스를 사용하여 증명 분석 능력을 연구하고, 오류를 상세히 주석 처리하여 1-4 척도로 평가하며, MathArena 해답 세트를 사용하여 IMO/USAMO 2025에 0-7 척도로 점수를 매긴다. 분석 결과 모델은 부정확한 해답(미묘하게 부정확한 해답 포함)을 안정적으로 식별할 수 있지만, 부분 점수를 할당하는 방식에 캘리브레이션 격차가 나타났다. 이러한 문제를 해결하기 위해, 참조 해답을 추출하고 분석하며 문제별 채점 기준을 자동적으로 도출하는 에이전트 기반 워크플로우를 도입하여 다단계 채점 프로세스를 수행한다. 채점 워크플로우에 대한 다양한 설계 선택을 구현하고 비교하며, 장단점을 평가한다. 주석 처리된 코퍼스 및 MathArena에서 제안된 워크플로우는 인간의 채점 결과와 더 높은 일치도를 보이며, 부분 점수를 일관성 있게 처리하는 성능을 보였다. 모든 코드, 데이터, 프롬프트 및 로그를 공개하여 향후 연구를 지원한다.

시사점, 한계점

시사점:
LLM은 부정확한 증명을 안정적으로 식별할 수 있다.
부분 점수 할당 방식의 개선을 위한 에이전트 기반 워크플로우 제안.
인간의 채점 결과와 더 높은 일치도를 보이고 부분 점수를 일관성 있게 처리하는 성능.
연구의 재현과 발전을 위한 코드, 데이터, 프롬프트 및 로그 공개.
한계점:
부분 점수 할당 방식에서 캘리브레이션 격차가 존재한다.
👍