Sign In

CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning

Created by
  • Haebom
Category
Empty

저자

Hamed Mahdavi (Pennsylvania State University), Pouria Mahdavinia (Pennsylvania State University), Alireza Farhadi (Amirkabir University of Technology), Pegah Mohammadipour (Pennsylvania State University), Samira Malek (Pennsylvania State University), Majid Daliri (New York University), Pedram Mohammadipour (Amirkabir University of Technology), Alireza Hashemi (City University of New York), Amir Khasahmadi (Autodesk), Vasant Honavar (Pennsylvania State University)

개요

최첨단 LLM이 증명 기반 올림피아드 문제 해결 능력이 향상되어 IMO 2025 문제 대부분을 해결할 수 있게 됨에 따라, 본 논문은 이러한 모델들이 증명 채점에 얼마나 효과적인지 평가한다. 90개의 Gemini 2.5 Pro 생성 솔루션을 사용하여 오류 감지, 심각도 판단, 1-4점 척도 채점 능력을 분석하고, MathArena의 IMO/USAMO 2025 솔루션 세트를 0-7점 척도로 평가한다. 모델이 부정확한 솔루션을 잘 파악하지만 부분 점수 할당에 보정 격차가 있음을 확인하고, 이를 해결하기 위해 참조 솔루션을 추출하고 분석하여 문제별 채점 기준을 자동으로 도출하는 에이전트 워크플로우를 제시한다. 다양한 채점 워크플로우 설계를 비교하고 그 장단점을 평가하며, 제안된 워크플로우가 인간 채점과의 일치도가 높고 부분 점수 처리가 일관적임을 입증한다.

시사점, 한계점

시사점:
LLM은 부정확한 솔루션 식별에 효과적이다.
LLM의 부분 점수 할당 능력 향상이 필요하다.
에이전트 워크플로우를 통해 인간 채점과의 일치도를 높이고 부분 점수 처리를 개선할 수 있다.
자동화된 채점 기준 도출은 효율성을 높인다.
한계점:
부분 점수 할당에 대한 개선의 여지가 있다.
제안된 워크플로우의 구체적인 성능 개선 정도 및 한계에 대한 추가 분석이 필요하다.
실제 채점 환경에서의 적용 가능성에 대한 추가 연구가 필요하다.
👍