Multi-Agent LLM Systems (MAS)의 성능 향상이 일반적인 벤치마크에서 미미한 이유에 대한 근본적인 이해 부족을 해결하기 위해, 실패 패턴의 체계적인 식별 및 분석을 위한 MAST-Data를 소개합니다. MAST-Data는 7개의 인기 MAS 프레임워크에서 수집된 1600개 이상의 주석 처리된 트레이스로 구성된 포괄적인 데이터셋입니다. 또한, MAS 실패 역학을 설명하는 최초의 멀티 에이전트 시스템 데이터셋으로, 더 나은 미래 시스템 개발을 안내합니다. MAST-Data의 실패를 체계적으로 분류하기 위해, 전문가 인간 주석자를 통해 개발되고 높은 주석자 간 일치도(kappa = 0.88)로 검증된 최초의 Multi-Agent System Failure Taxonomy (MAST)를 구축했습니다. MAST를 통해 시스템 설계 문제, 에이전트 간 불일치, 작업 검증 등 3가지 범주로 분류된 14가지 고유 모드를 식별했습니다. LLM-as-a-Judge 파이프라인을 개발하여 확장 가능한 주석 처리를 가능하게 하였으며, 모델(GPT4, Claude 3, Qwen2.5, CodeLlama) 및 작업(코딩, 수학, 일반 에이전트)에 걸쳐 실패 패턴을 분석하여 더 나은 MAS 설계로부터의 개선 여지를 보여주었습니다. MAST-Data, MAST, LLM 주석자를 공개하여 MAS 연구 개발을 촉진합니다.