Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

Created by
  • Haebom

저자

Yurun Chen, Xavier Hu, Yuhan Liu, Ziqi Wang, Zeyi Liao, Lin Chen, Feng Wei, Yuxi Qian, Bo Zheng, Keting Yin, Shengyu Zhang

개요

멀티모달 LLM 기반 에이전트의 자율성과 일반화 능력이 발전함에 따라, 정적 데이터셋 기반의 평가는 동적 환경과 다양한 작업에서의 실제 능력을 충분히 평가할 수 없다는 문제점을 제기하며, 이를 해결하기 위해 Graph2Eval을 제안한다. Graph2Eval은 지식 그래프를 기반으로 멀티모달 문서 이해 및 웹 인터랙션 작업을 자동 생성하여 에이전트의 추론, 협업, 상호작용 능력을 종합적으로 평가하는 프레임워크이다. 외부 데이터로부터 구축된 지식 그래프를 작업 공간으로 활용하여, 하위 그래프 샘플링, 작업 템플릿, 메타 경로를 통해 의미적 관계를 구조화된 멀티모달 작업으로 변환한다. 노드 도달성, LLM 점수, 유사성 분석을 기반으로 하는 다단계 필터링 파이프라인을 통해 생성된 작업의 품질과 실행 가능성을 보장한다. Graph2Eval은 Single-Agent, Multi-Agent, Web Agent 등 다양한 에이전트 유형에 대한 종단 간 평가를 지원하며, 추론, 협업, 상호작용 능력을 측정한다. Graph2Eval-Bench라는 1,319개의 문서 이해 및 웹 인터랙션 시나리오를 포함하는 큐레이션된 데이터셋을 통해 프레임워크를 구현하고 실험을 진행하여 에이전트 및 모델 성능을 차별화하고 다양한 설정에서 추론, 협업, 웹 상호작용의 격차를 보여주며, 에이전트 평가에 대한 새로운 관점을 제시한다.

시사점, 한계점

시사점:
동적 환경 및 다양한 작업에서의 에이전트 능력 평가를 위한 새로운 프레임워크 제시.
지식 그래프를 활용하여 멀티모달 작업 자동 생성.
추론, 협업, 웹 상호작용 능력을 종합적으로 평가.
다양한 에이전트 유형에 대한 종단 간 평가 지원.
Graph2Eval-Bench를 통한 실제 실험 및 성능 검증.
에이전트 평가의 새로운 관점 제시.
한계점:
LLM 기반의 작업 생성 및 평가이므로, LLM의 성능에 의존적일 수 있음.
지식 그래프 구축 및 유지보수의 복잡성.
생성된 작업의 품질을 보장하기 위한 필터링 파이프라인의 복잡성.
웹 인터랙션 작업의 경우 웹 환경 변화에 대한 적응력 필요.
👍