Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents
Created by
Haebom
저자
Haochen Sun, Shuwen Zhang, Lujie Niu, Lei Ren, Hao Xu, Hao Fu, Fangkun Zhao, Caixia Yuan, Xiaojie Wang
개요
본 논문은 Overcooked-AI 게임을 기반으로 한 새로운 LLM 기반 다중 에이전트 시스템(LLM-MAS) 벤치마크인 Collab-Overcooked를 제안한다. Collab-Overcooked는 다양한 작업과 목표를 지원하는 다중 에이전트 프레임워크를 제공하고 자연어 소통을 통한 협업을 장려한다는 점에서 기존 벤치마크를 확장한다. 또한, 기존 연구에서 종종 간과되었던 세부적인 협업 능력을 평가하기 위해 다양한 프로세스 중심의 평가 지표를 도입한다. 11개의 인기 있는 LLM을 대상으로 실험을 수행하여 LLM이 목표 해석에는 능숙하지만 복잡한 작업을 효율적으로 수행하는 데 중요한 능동적인 협업 및 지속적인 적응 능력에는 상당한 차이가 있음을 보여준다. LLM-MAS의 강점과 약점을 강조하고 통합되고 오픈소스인 벤치마크에서 LLM-MAS를 개선하고 평가하기 위한 통찰력을 제공한다. 환경, 30개의 개방형 작업 및 평가 패키지는 https://github.com/YusaeMeow/Collab-Overcooked 에서 공개적으로 제공된다.