멀티모달 LLM 기반 에이전트의 자율성과 일반화 능력이 발전함에 따라, 정적 데이터셋 기반의 평가는 동적 환경과 다양한 작업에서의 실제 능력을 충분히 평가할 수 없다는 문제점을 제기하며, 이를 해결하기 위해 Graph2Eval을 제안한다. Graph2Eval은 지식 그래프를 기반으로 멀티모달 문서 이해 및 웹 인터랙션 작업을 자동 생성하여 에이전트의 추론, 협업, 상호작용 능력을 종합적으로 평가하는 프레임워크이다. 외부 데이터로부터 구축된 지식 그래프를 작업 공간으로 활용하여, 하위 그래프 샘플링, 작업 템플릿, 메타 경로를 통해 의미적 관계를 구조화된 멀티모달 작업으로 변환한다. 노드 도달성, LLM 점수, 유사성 분석을 기반으로 하는 다단계 필터링 파이프라인을 통해 생성된 작업의 품질과 실행 가능성을 보장한다. Graph2Eval은 Single-Agent, Multi-Agent, Web Agent 등 다양한 에이전트 유형에 대한 종단 간 평가를 지원하며, 추론, 협업, 상호작용 능력을 측정한다. Graph2Eval-Bench라는 1,319개의 문서 이해 및 웹 인터랙션 시나리오를 포함하는 큐레이션된 데이터셋을 통해 프레임워크를 구현하고 실험을 진행하여 에이전트 및 모델 성능을 차별화하고 다양한 설정에서 추론, 협업, 웹 상호작용의 격차를 보여주며, 에이전트 평가에 대한 새로운 관점을 제시한다.