Sign In

TPS-Bench: Evaluating AI Agents' Tool Planning \& Scheduling Abilities in Compounding Tasks

Created by
  • Haebom
Category
Empty

저자

Hanwen Xu, Xuyao Huang, Yuzhe Liu, Kai Yu, Zhijie Deng

개요

본 논문은 다양한 도구를 사용하여 복합적인 실제 문제 해결 능력을 평가하기 위한 LLM 에이전트의 벤치마크인 TPS-Bench를 소개한다. TPS-Bench는 웹 검색, 지도 탐색, 캘린더 확인 등 다양한 하위 작업으로 구성된 200개의 복합 작업을 포함하며, 각 작업은 기본 도구로 완료될 수 있다. 평가 결과는 인기 있는 LLM 모델들이 도구 계획 능력은 갖추고 있으나, 스케줄링 능력에 차이를 보이며, 강화 학습을 통해 스케줄링 효율성을 개선할 수 있음을 보여준다.

시사점, 한계점

시사점:
LLM 에이전트가 복잡한 문제 해결을 위해 다양한 도구를 효과적으로 사용해야 함을 강조한다.
도구 계획 및 스케줄링 능력의 중요성을 부각한다.
강화 학습을 통한 스케줄링 효율성 개선 가능성을 제시한다.
TPS-Bench를 통해 LLM 에이전트의 성능을 평가하고 비교할 수 있는 기반을 마련했다.
한계점:
강화 학습 연구는 초기 단계이며, 더 많은 연구가 필요하다.
특정 LLM 모델(GLM-4.5, GPT-4o, Qwen3-1.7B)에 대한 결과만 제시되어 일반화의 한계가 있다.
제공된 도구 저장소의 특성 및 도구의 종류가 결과에 미치는 영향에 대한 추가적인 분석이 필요하다.
👍