본 논문은 실제 세계 계획 및 스케줄링 시나리오에서 개별 대규모 언어 모델(LLM)과 다중 에이전트 시스템 모두를 평가하기 위한 포괄적인 평가 프레임워크를 제공하는 벤치마크 모음을 제시합니다. 이 모음에는 기본적인 것부터 매우 복잡한 것까지 14가지 계획 및 스케줄링 문제가 포함되어 있으며, 다중 에이전트 조정, 에이전트 간 의존성, 동적 환경 방해 등의 주요 측면을 통합합니다. 각 문제는 병렬 계획 스레드 수, 상호 의존성의 복잡성, 실시간 적응이 필요한 예상치 못한 방해의 빈도라는 세 가지 차원으로 확장할 수 있습니다. 벤치마크에는 14가지 상세한 문제 명세, Random, LPT, SPT, STPT, MPSR, DRL-Liu, GP, GEP, LSO, SPT/TWKR, DRL-Chen, DRL-Zhang를 포함한 15가지 비교 방법, 2가지 이상의 평가 지표, GPT-4o, Claude-3.7, DeepSeek-R1을 포함한 3가지 이상의 LLM을 사용한 기준 구현, LangGraph, AutoGen, CrewAI, Swarm을 포함한 4가지 최신 프레임워크가 포함되어 단일 에이전트 및 다중 에이전트 계획 기능을 엄격하게 테스트할 수 있도록 합니다. 표준화된 평가 기준과 확장 가능한 복잡성을 통해 이 벤치마크는 공개를 목표로 하며 실제 응용 프로그램을 위한 더욱 적응력 있고 견고하며 확장 가능한 AI 계획 시스템 개발을 추진합니다.