Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions

Created by
  • Haebom

저자

PeiJie Yu, Yifan Yang, Jinjian Li, Zelong Zhang, Haorui Wang, Xiao Feng, Feng Zhang

개요

본 논문은 대규모 언어 모델(LLM) 기반 에이전트의 도구 호출 능력을 평가하기 위한 새로운 벤치마크인 Multi-Mission Tool Bench를 제안한다. 기존 벤치마크가 단일 임무 시나리오에만 초점을 맞춘 것과 달리, Multi-Mission Tool Bench는 상호 연관된 여러 임무로 구성된 테스트 케이스를 제공하여 실제 세계의 복잡성을 더 잘 반영한다. 본 벤치마크는 고정된 임무 수 내에서 모든 가능한 임무 전환 패턴을 탐색하며, 다중 에이전트 데이터 생성 프레임워크를 통해 구축된다. 또한 동적 의사결정 트리를 이용하여 에이전트의 정확성과 효율성을 평가하는 새로운 방법을 제시한다. 다양한 오픈소스 및 클로즈드소스 LLM을 대상으로 한 실험을 통해 에이전트 강건성에 영향을 미치는 중요 요소를 밝히고 도구 호출 분야에 대한 실용적인 통찰력을 제공한다.

시사점, 한계점

시사점:
실제 세계의 복잡성을 반영하는 다중 임무 시나리오 기반의 새로운 LLM 에이전트 벤치마크 제시
동적 의사결정 트리를 이용한 에이전트 평가 방법 제안
다양한 LLM의 성능 비교 및 에이전트 강건성에 영향을 미치는 요소 분석
도구 호출 분야 발전에 기여할 실용적인 통찰력 제공
한계점:
제안된 벤치마크의 범용성 및 확장성에 대한 추가적인 검증 필요
다양한 유형의 도구 및 임무에 대한 일반화 가능성 연구 필요
특정 LLM 또는 도구에 대한 편향 가능성 고려 및 해결 방안 모색 필요
👍