Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Collab-Overcooked: Benchmarking and Evaluating Large Language Models as Collaborative Agents

Created by
  • Haebom

저자

Haochen Sun, Shuwen Zhang, Lujie Niu, Lei Ren, Hao Xu, Hao Fu, Fangkun Zhao, Caixia Yuan, Xiaojie Wang

개요

본 논문은 Overcooked-AI 게임을 기반으로 한 새로운 LLM 기반 다중 에이전트 시스템(LLM-MAS) 벤치마크인 Collab-Overcooked를 제안한다. Collab-Overcooked는 다양한 작업과 목표를 지원하는 다중 에이전트 프레임워크를 제공하고 자연어 소통을 통한 협업을 장려한다는 점에서 기존 벤치마크를 확장한다. 또한, 기존 연구에서 종종 간과되었던 세부적인 협업 능력을 평가하기 위해 다양한 프로세스 중심의 평가 지표를 도입한다. 11개의 인기 있는 LLM을 대상으로 실험을 수행하여 LLM이 목표 해석에는 능숙하지만 복잡한 작업을 효율적으로 수행하는 데 중요한 능동적인 협업 및 지속적인 적응 능력에는 상당한 차이가 있음을 보여준다. LLM-MAS의 강점과 약점을 강조하고 통합되고 오픈소스인 벤치마크에서 LLM-MAS를 개선하고 평가하기 위한 통찰력을 제공한다. 환경, 30개의 개방형 작업 및 평가 패키지는 https://github.com/YusaeMeow/Collab-Overcooked 에서 공개적으로 제공된다.

시사점, 한계점

시사점:
Overcooked-AI 기반의 새로운 LLM-MAS 벤치마크인 Collab-Overcooked를 제시하여 다양한 작업과 목표를 지원하고 자연어 소통을 통한 협업을 평가할 수 있도록 함.
프로세스 중심의 평가 지표를 도입하여 LLM 에이전트의 세부적인 협업 능력 평가 가능.
다양한 LLM의 협업 능력 비교 및 분석을 통해 LLM-MAS의 강점과 약점을 제시하고 향상 방향 제시.
오픈소스 벤치마크 제공으로 연구 공유 및 발전 촉진.
한계점:
Overcooked-AI 게임 환경에 국한된 벤치마크로, 다른 실제 환경으로의 일반화 가능성에 대한 추가 연구 필요.
제시된 평가 지표의 포괄성 및 객관성에 대한 추가 검토 필요.
다양한 유형의 LLM에 대한 실험적 분석이 필요하며, 특정 LLM에 편향된 결과일 가능성 고려.
👍