Sign In

The Tool Decathlon: Benchmarking Language Agents for Diverse, Realistic, and Long-Horizon Task Execution

Created by
  • Haebom
Category
Empty

저자

Junlong Li, Wenshuo Zhao, Jian Zhao, Weihao Zeng, Haoze Wu, Xiaochen Wang, Rui Ge, Yuxuan Cao, Yuzhen Huang, Wei Liu, Junteng Liu, Zhaochen Su, Yiyang Guo, Fan Zhou, Lueyang Zhang, Juan Michelini, Xingyao Wang, Xiang Yue, Shuyan Zhou, Graham Neubig, Junxian He

개요

Tool Decathlon (Toolathlon)은 다양한 앱과 도구를 사용하고, 현실적인 환경 설정을 갖춘 언어 에이전트의 성능을 평가하기 위한 벤치마크입니다. Google Calendar, Notion과 같은 일상적인 플랫폼부터 WooCommerce, Kubernetes, BigQuery와 같은 전문 플랫폼까지 32개의 소프트웨어 애플리케이션과 604개의 도구를 포함합니다. 현실적인 초기 환경 상태와 평균 20번의 턴 이상으로 여러 앱과 상호 작용해야 하는 108개의 수동으로 제작된 작업이 포함되어 있습니다. 최첨단 모델의 종합적인 평가는 그들의 상당한 단점을 보여주며, 최고의 모델인 Claude-4.5-Sonnet은 38.6%의 성공률을 보였습니다.

시사점, 한계점

시사점:
실제 환경에서 장기적인 작업을 수행하는 언어 에이전트 개발을 촉진할 수 있는 벤치마크 제공.
다양한 앱과 도구, 현실적인 환경 설정 및 실행 기반 평가를 통해 실제 성능 평가 가능.
최첨단 모델의 한계를 명확히 보여줌.
한계점:
구체적인 한계점은 논문에 명시되지 않음.
👍