SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Created by

Haebom

저자

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

💡 개요

본 논문은 LLM 에이전트의 추론 능력을 향상시키는 '에이전트 스킬'의 효과를 측정하기 위한 표준화된 벤치마크인 SkillsBench를 제안한다. 11개 도메인의 86개 작업으로 구성된 SkillsBench는 에이전트 스킬의 유무 및 자체 생성 스킬과의 비교를 통해 성능을 평가하며, 큐레이션된 스킬이 평균 16.2%p의 작업 성공률 향상을 가져왔지만 도메인별 편차가 크고 일부 작업에서는 오히려 성능 저하를 야기함을 보여준다. 또한, 모델이 스스로 효과적인 스킬을 생성하는 데는 한계가 있으며, 집중적인 스킬이 포괄적인 문서화보다 우수하고, 작은 모델도 스킬을 활용하면 더 큰 모델과 동등한 성능을 낼 수 있음을 시사한다.

🔑 시사점 및 한계

•

에이전트 스킬은 LLM 에이전트의 성능을 향상시킬 수 있으나, 그 효과는 작업의 특성과 도메인에 따라 크게 달라지므로 신중한 설계와 선택이 필요하다.

•

현재 LLM 기반 에이전트는 효과적인 에이전트 스킬을 스스로 생성하는 데 어려움을 겪고 있으며, 외부에서 제공되는 큐레이션된 스킬이 더 유용하다.

•

집중적이고 모듈화된 스킬 설계가 범용적인 문서화보다 효율적이며, 적절한 스킬 활용은 모델 크기와 상관없이 성능을 개선할 수 있다.

•

본 연구에서 제시된 벤치마크는 에이전트 스킬의 효과를 정량적으로 평가하는 데 기여하지만, 다양한 환경과 더 복잡한 작업에 대한 스킬의 적용성을 추가적으로 검증할 필요가 있다.

PDF 보기

Made with Slashpage