GRAFT는 LLM이 지시 따르기, 시각적 추론, 그리고 시각적-텍스트 정렬이 필요한 작업을 얼마나 잘 처리하는지 평가하기 위해 설계된 구조화된 멀티모달 벤치마크입니다. 프로그램으로 생성된 차트와 합성적으로 렌더링된 테이블을 기반으로 하며, 각 이미지 자체에서 추론할 수 있는 내용에만 의존하는 신중하게 구성된 다단계 분석 질문과 짝을 이룹니다. 응답은 JSON 또는 YAML과 같은 구조화된 형식으로 지정되어, 추론 프로세스와 출력 사양 준수 모두에 대한 일관되고 세분화된 평가를 가능하게 합니다. 벤치마크는 또한 비교 및 추세 식별에서 순위, 집계, 비례 추정 및 이상 감지에 이르기까지 다양한 추론 연산의 분류법을 도입하여 모델의 기능을 종합적으로 평가할 수 있도록 지원합니다. GRAFT는 시각적으로 기반된 구조화된 추론 작업에 대해 멀티모달 LLM을 평가하기 위한 통일되고 확장 가능한 프레임워크를 제공하여 향후 벤치마킹 노력에 대한 더욱 엄격한 표준을 제시합니다.