본 연구는 다중 로봇 협업 벤치마크인 RoCo를 기반으로, 대규모 언어 모델(LLM) 기반 장기적 멀티 에이전트 협업을 평가하기 위한 새로운 벤치마크인 Tool-RoCo를 제안합니다. Tool-RoCo는 에이전트 자율성을 무시하는 기존 LLM 기반 멀티 에이전트 시스템 연구의 한계를 극복하고자, 다른 에이전트를 도구로 취급하고 협력적 도구를 도입하여 도구 사용을 통해 멀티 에이전트 협업 및 자체 조직화를 평가합니다. 각 에이전트(LLM)는 현재 상태를 기반으로 후보 도구 세트에서 도구를 선택하고 피드백을 받은 후 후속 라운드에서 선택을 조정합니다. Tool-RoCo는 중앙 집중식 협업, 중앙 집중식 자체 조직화, 분산 협업, 자체 조직화의 네 가지 LLM 패러다임을 통해 다양한 자율성 수준을 평가합니다. SORT, PACK, CABINET의 세 가지 다중 로봇 작업을 포함하며, 도구 사용을 통해 형식 및 매개변수 정확도와 에이전트 조정을 측정합니다. 실험 결과, 협력적 도구 사용은 전체 도구의 7.09%에 불과했고, 활성화 도구는 96.42%를 차지하여 LLM 기반 에이전트가 다른 에이전트를 거의 지원자로 활용하지 않고, 대부분의 에이전트를 활성 상태로 유지하는 경향을 보였습니다.