MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents
Created by
Haebom
Category
Empty
저자
Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You
개요
본 논문에서는 다양한 상호작용 시나리오에서 LLM 기반 다중 에이전트 시스템을 평가하기 위한 포괄적인 벤치마크인 MultiAgentBench를 소개합니다. 기존 벤치마크가 단일 에이전트 작업에 초점을 맞추거나 좁은 영역으로 제한되는 것과 달리, MultiAgentBench는 다중 에이전트의 협력 및 경쟁 역학을 포착합니다. 새로운 마일스톤 기반 KPI를 사용하여 작업 완료뿐 아니라 협업 및 경쟁의 질을 측정하며, 별, 체인, 트리, 그래프 토폴로지 등 다양한 조정 프로토콜과 그룹 토론 및 인지적 계획과 같은 혁신적인 전략을 평가합니다. gpt-4o-mini가 평균적으로 가장 높은 작업 점수를 달성했고, 그래프 구조가 연구 시나리오에서 가장 우수한 조정 프로토콜로 나타났으며, 인지적 계획이 마일스톤 달성률을 3% 향상시켰습니다. 코드와 데이터셋은 https://github.com/MultiagentBench/MARBLE 에서 공개적으로 이용 가능합니다.