Sign In

Why Do Multi-Agent LLM Systems Fail?

Created by
  • Haebom
Category
Empty

저자

Mert Cemri, Melissa Z. Pan, Shuyi Yang, Lakshya A. Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

개요

Multi-Agent LLM Systems (MAS)의 성능 향상이 일반적인 벤치마크에서 미미한 이유에 대한 근본적인 이해 부족을 해결하기 위해, 실패 패턴의 체계적인 식별 및 분석을 위한 MAST-Data를 소개합니다. MAST-Data는 7개의 인기 MAS 프레임워크에서 수집된 1600개 이상의 주석 처리된 트레이스로 구성된 포괄적인 데이터셋입니다. 또한, MAS 실패 역학을 설명하는 최초의 멀티 에이전트 시스템 데이터셋으로, 더 나은 미래 시스템 개발을 안내합니다. MAST-Data의 실패를 체계적으로 분류하기 위해, 전문가 인간 주석자를 통해 개발되고 높은 주석자 간 일치도(kappa = 0.88)로 검증된 최초의 Multi-Agent System Failure Taxonomy (MAST)를 구축했습니다. MAST를 통해 시스템 설계 문제, 에이전트 간 불일치, 작업 검증 등 3가지 범주로 분류된 14가지 고유 모드를 식별했습니다. LLM-as-a-Judge 파이프라인을 개발하여 확장 가능한 주석 처리를 가능하게 하였으며, 모델(GPT4, Claude 3, Qwen2.5, CodeLlama) 및 작업(코딩, 수학, 일반 에이전트)에 걸쳐 실패 패턴을 분석하여 더 나은 MAS 설계로부터의 개선 여지를 보여주었습니다. MAST-Data, MAST, LLM 주석자를 공개하여 MAS 연구 개발을 촉진합니다.

시사점, 한계점

시사점:
MAS 실패를 체계적으로 분석하기 위한 최초의 포괄적인 데이터셋(MAST-Data) 및 실패 분류 체계(MAST) 제공
다양한 모델과 작업에 걸쳐 실패 패턴 분석을 통해 개선 여지 제시
향후 MAS 설계 및 연구 방향에 대한 로드맵 제시
연구 및 개발을 위해 MAST-Data, MAST, LLM 주석자 공개
한계점:
논문 내용에 명시된 한계점은 없음 (하지만, 논문의 성공적인 진행을 위해 충분한 자원, 전문성, 검증을 거쳤을 것임)
👍