본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 도구 호출 능력을 평가하기 위한 새로운 벤치마크인 Multi-Mission Tool Bench를 제안한다. 기존 벤치마크가 단일 임무 시나리오에만 초점을 맞춘 것과 달리, Multi-Mission Tool Bench는 상호 연관된 여러 임무로 구성된 테스트 케이스를 제공하여 실제 세계의 복잡성을 더 잘 반영한다. 본 벤치마크는 고정된 임무 수 내에서 모든 가능한 임무 전환 패턴을 탐색하며, 다중 에이전트 데이터 생성 프레임워크를 통해 구축된다. 또한 동적 의사결정 트리를 이용하여 에이전트의 정확성과 효율성을 평가하는 새로운 방법을 제시한다. 다양한 오픈소스 및 클로즈드소스 LLM을 대상으로 한 실험을 통해 에이전트 강건성에 영향을 미치는 중요 요소를 밝히고 도구 호출 분야에 대한 실용적인 통찰력을 제공한다.
시사점, 한계점
•
시사점:
◦
실제 세계의 복잡성을 반영하는 다중 임무 시나리오 기반의 새로운 LLM 에이전트 벤치마크 제시