본 논문은 다양한 도구를 사용하여 복합적인 실제 문제 해결 능력을 평가하기 위한 LLM 에이전트의 벤치마크인 TPS-Bench를 소개한다. TPS-Bench는 웹 검색, 지도 탐색, 캘린더 확인 등 다양한 하위 작업으로 구성된 200개의 복합 작업을 포함하며, 각 작업은 기본 도구로 완료될 수 있다. 평가 결과는 인기 있는 LLM 모델들이 도구 계획 능력은 갖추고 있으나, 스케줄링 능력에 차이를 보이며, 강화 학습을 통해 스케줄링 효율성을 개선할 수 있음을 보여준다.