Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GRAFT: GRaPH and Table Reasoning for Textual Alignment -- A Benchmark for Structured Instruction Following and Visual Reasoning

Created by
  • Haebom
Category
Empty

저자

Abhigya Verma, Sriram Puttagunta, Seganrasan Subramanian, Sravan Ramachandran

개요

GRAFT는 LLM이 지시 따르기, 시각적 추론, 그리고 시각적-텍스트 정렬이 필요한 작업을 얼마나 잘 처리하는지 평가하기 위해 설계된 구조화된 멀티모달 벤치마크입니다. 프로그램으로 생성된 차트와 합성적으로 렌더링된 테이블을 기반으로 하며, 각 이미지 자체에서 추론할 수 있는 내용에만 의존하는 신중하게 구성된 다단계 분석 질문과 짝을 이룹니다. 응답은 JSON 또는 YAML과 같은 구조화된 형식으로 지정되어, 추론 프로세스와 출력 사양 준수 모두에 대한 일관되고 세분화된 평가를 가능하게 합니다. 벤치마크는 또한 비교 및 추세 식별에서 순위, 집계, 비례 추정 및 이상 감지에 이르기까지 다양한 추론 연산의 분류법을 도입하여 모델의 기능을 종합적으로 평가할 수 있도록 지원합니다. GRAFT는 시각적으로 기반된 구조화된 추론 작업에 대해 멀티모달 LLM을 평가하기 위한 통일되고 확장 가능한 프레임워크를 제공하여 향후 벤치마킹 노력에 대한 더욱 엄격한 표준을 제시합니다.

시사점, 한계점

멀티모달 LLM의 지시 따르기, 시각적 추론, 시각적-텍스트 정렬 능력을 평가하기 위한 새로운 벤치마크 제공
JSON, YAML과 같은 구조화된 형식의 응답을 통해 세분화된 평가 가능
추론 연산 분류법을 통해 모델 기능의 종합적인 평가 지원
벤치마크는 프로그램으로 생성된 차트와 합성 렌더링된 테이블에 국한됨
이미지 자체에만 의존하는 질문으로 제한됨
👍