Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

REALM-Bench: A Benchmark for Evaluating Multi-Agent Systems on Real-world, Dynamic Planning and Scheduling Tasks

Created by
  • Haebom

저자

Longling Geng, Edward Y. Chang

개요

본 논문은 실제 세계 계획 및 스케줄링 시나리오에서 개별 대규모 언어 모델(LLM)과 다중 에이전트 시스템 모두를 평가하기 위한 포괄적인 평가 프레임워크를 제공하는 벤치마크 모음을 제시합니다. 이 모음에는 기본적인 것부터 매우 복잡한 것까지 14가지 계획 및 스케줄링 문제가 포함되어 있으며, 다중 에이전트 조정, 에이전트 간 의존성, 동적 환경 방해 등의 주요 측면을 통합합니다. 각 문제는 병렬 계획 스레드 수, 상호 의존성의 복잡성, 실시간 적응이 필요한 예상치 못한 방해의 빈도라는 세 가지 차원으로 확장할 수 있습니다. 벤치마크에는 14가지 상세한 문제 명세, Random, LPT, SPT, STPT, MPSR, DRL-Liu, GP, GEP, LSO, SPT/TWKR, DRL-Chen, DRL-Zhang를 포함한 15가지 비교 방법, 2가지 이상의 평가 지표, GPT-4o, Claude-3.7, DeepSeek-R1을 포함한 3가지 이상의 LLM을 사용한 기준 구현, LangGraph, AutoGen, CrewAI, Swarm을 포함한 4가지 최신 프레임워크가 포함되어 단일 에이전트 및 다중 에이전트 계획 기능을 엄격하게 테스트할 수 있도록 합니다. 표준화된 평가 기준과 확장 가능한 복잡성을 통해 이 벤치마크는 공개를 목표로 하며 실제 응용 프로그램을 위한 더욱 적응력 있고 견고하며 확장 가능한 AI 계획 시스템 개발을 추진합니다.

시사점, 한계점

시사점:
실제 세계 계획 및 스케줄링 문제에 대한 포괄적인 벤치마크 프레임워크 제공
다양한 LLM과 다중 에이전트 시스템의 성능 비교 및 평가 가능
단일 에이전트 및 다중 에이전트 계획 기능에 대한 엄격한 테스트 가능
더욱 적응력 있고 견고하며 확장 가능한 AI 계획 시스템 개발 촉진
한계점:
현재 제시된 14가지 문제의 일반화 가능성 및 실제 세계 문제와의 대표성에 대한 추가 검증 필요
평가 지표의 종류 및 수가 제한적일 수 있음. 다양한 측면을 고려한 추가 지표 개발 필요
사용된 LLM 및 프레임워크의 종류가 제한적일 수 있음. 더욱 다양한 모델 및 프레임워크를 포함한 확장 필요
벤치마크의 공개 이후, 실제 사용자들에 의한 추가적인 검증 및 피드백 필요
👍