GRAF는 instruction-following, 시각적 추론, 시각-텍스트 정렬 작업에 대한 모델 평가를 위한 구조화된 다중 모달 벤치마크입니다. Python 시각화 라이브러리를 사용하여 생성된 프로그래밍 방식의 차트와 합성적으로 렌더링된 표를 특징으로 하며, 데이터 의미, 구조 및 명확성을 제어할 수 있습니다. 각 GRAFT 인스턴스는 차트 또는 표 이미지와 시각적 콘텐츠에만 기반한 체계적으로 생성된 다단계 분석 질문을 쌍으로 연결합니다. 답변은 JSON 또는 YAML과 같은 구조화된 형식으로 제공되어 추론과 출력 형식을 일관되게 평가할 수 있습니다. 이 벤치마크는 비교, 추세 식별, 순위 지정, 집계, 비율 추정 및 이상 탐지 등의 추론 유형 분류를 도입하여 포괄적인 평가를 가능하게 합니다. 참조 답변은 정확하고 측면 기반의 평가를 위해 엄격한 사실적 및 형식적 지침을 따릅니다. GRAFT는 시각적으로 근거한 구조화된 추론 작업에 대한 다중 모달 모델의 세분화된 벤치마킹을 위한 통합적이고 확장 가능한 프레임워크를 제공하여 이 분야의 새로운 평가 표준을 설정합니다.