본 논문은 시각적 그래프 데이터 해석에 있어 유망한 능력을 보여주는 Vision-Language Models (VLMs)의 최근 발전을 바탕으로, 기존의 그래프 신경망(GNNs)을 넘어 그래프 구조 추론에 대한 새로운 관점을 제시합니다. 기존 연구들이 단일 그래프 추론에 주로 초점을 맞춘 것과 달리, 본 논문에서는 VLMs의 다중 그래프 공동 추론 능력을 평가하고 향상시키기 위해 설계된 최초의 포괄적인 벤치마크를 소개합니다. 이 벤치마크는 지식 그래프, 흐름도, 마인드맵, 경로 지도 등 네 가지 일반적인 그래프 유형을 포함하며, 복잡성이 증가하는 작업을 통해 동종 및 이종 그래프 그룹화를 모두 지원합니다. 그래프 파싱, 추론 일관성 및 지시 사항 준수 정확도를 평가하는 다차원 점수 체계 하에서 여러 최첨단 VLMs를 평가하고, 여러 오픈 소스 모델을 미세 조정하여 일관된 개선을 관찰함으로써 데이터 세트의 효과를 확인합니다. 이 연구는 다중 그래프 이해를 발전시키는 원칙적인 단계를 제공하고 교차 모달 그래프 인텔리전스에 대한 새로운 기회를 제시합니다.