Sign In

MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

Created by
  • Haebom
Category
Empty

저자

Kunlun Zhu, Hongyi Du, Zhaochen Hong, Xiaocheng Yang, Shuyi Guo, Zhe Wang, Zhenhailong Wang, Cheng Qian, Xiangru Tang, Heng Ji, Jiaxuan You

개요

본 논문에서는 다양한 상호작용 시나리오에서 LLM 기반 다중 에이전트 시스템을 평가하기 위한 포괄적인 벤치마크인 MultiAgentBench를 소개합니다. 기존 벤치마크가 단일 에이전트 작업에 초점을 맞추거나 좁은 영역으로 제한되는 것과 달리, MultiAgentBench는 다중 에이전트의 협력 및 경쟁 역학을 포착합니다. 새로운 마일스톤 기반 KPI를 사용하여 작업 완료뿐 아니라 협업 및 경쟁의 질을 측정하며, 별, 체인, 트리, 그래프 토폴로지 등 다양한 조정 프로토콜과 그룹 토론 및 인지적 계획과 같은 혁신적인 전략을 평가합니다. gpt-4o-mini가 평균적으로 가장 높은 작업 점수를 달성했고, 그래프 구조가 연구 시나리오에서 가장 우수한 조정 프로토콜로 나타났으며, 인지적 계획이 마일스톤 달성률을 3% 향상시켰습니다. 코드와 데이터셋은 https://github.com/MultiagentBench/MARBLE 에서 공개적으로 이용 가능합니다.

시사점, 한계점

시사점:
LLM 기반 다중 에이전트 시스템의 협력 및 경쟁 역학을 평가할 수 있는 포괄적인 벤치마크를 제공합니다.
다양한 조정 프로토콜과 전략의 효과를 비교 분석하여 최적의 시스템 설계에 대한 통찰력을 제공합니다.
gpt-4o-mini, 그래프 구조, 인지적 계획의 우수성을 실험적으로 검증합니다.
공개된 코드와 데이터셋을 통해 연구의 재현성과 확장성을 높입니다.
한계점:
벤치마크의 일반화 가능성에 대한 추가적인 연구가 필요합니다.
다양한 LLM 및 환경에 대한 벤치마크의 적용 가능성을 검증해야 합니다.
평가 지표의 개선 및 새로운 지표의 도입을 통해 벤치마크의 완성도를 높일 수 있습니다.
👍