Sign In

SkillsBench: Benchmarking How Well Agent Skills Work Across Diverse Tasks

Created by
  • Haebom
Category
Empty

μ €μž

Xiangyi Li, Wenbo Chen, Yimin Liu, Shenghan Zheng, Xiaokun Chen, Yifeng He, Yubo Li, Bingran You, Haotian Shen, Jiankai Sun, Shuyi Wang, Qunhong Zeng, Di Wang, Xuandong Zhao, Yuanli Wang, Roey Ben Chaim, Zonglin Di, Yipeng Gao, Junwei He, Yizhuo He, Liqiang Jing, Luyang Kong, Xin Lan, Jiachen Li, Songlin Li, Yijiang Li, Yueqian Lin, Xinyi Liu, Xuanqing Liu, Haoran Lyu, Ze Ma, Bowei Wang, Runhui Wang, Tianyu Wang, Wengao Ye, Yue Zhang, Hanwen Xing, Yiqi Xue, Steven Dillmann, Han-chung Lee

πŸ’‘ κ°œμš”

λ³Έ 논문은 LLM μ—μ΄μ „νŠΈμ˜ μΆ”λ‘  λŠ₯λ ₯을 ν–₯μƒμ‹œν‚€λŠ” 'μ—μ΄μ „νŠΈ μŠ€ν‚¬'의 효과λ₯Ό μΈ‘μ •ν•˜κΈ° μœ„ν•œ ν‘œμ€€ν™”λœ 벀치마크인 SkillsBenchλ₯Ό μ œμ•ˆν•œλ‹€. 11개 λ„λ©”μΈμ˜ 86개 μž‘μ—…μœΌλ‘œ κ΅¬μ„±λœ SkillsBenchλŠ” μ—μ΄μ „νŠΈ μŠ€ν‚¬μ˜ 유무 및 자체 생성 μŠ€ν‚¬κ³Όμ˜ 비ꡐλ₯Ό 톡해 μ„±λŠ₯을 ν‰κ°€ν•˜λ©°, νλ ˆμ΄μ…˜λœ μŠ€ν‚¬μ΄ 평균 16.2%p의 μž‘μ—… 성곡λ₯  ν–₯상을 κ°€μ Έμ™”μ§€λ§Œ 도메인별 νŽΈμ°¨κ°€ 크고 일뢀 μž‘μ—…μ—μ„œλŠ” 였히렀 μ„±λŠ₯ μ €ν•˜λ₯Ό 야기함을 보여쀀닀. λ˜ν•œ, λͺ¨λΈμ΄ 슀슀둜 효과적인 μŠ€ν‚¬μ„ μƒμ„±ν•˜λŠ” λ°λŠ” ν•œκ³„κ°€ 있으며, 집쀑적인 μŠ€ν‚¬μ΄ 포괄적인 λ¬Έμ„œν™”λ³΄λ‹€ μš°μˆ˜ν•˜κ³ , μž‘μ€ λͺ¨λΈλ„ μŠ€ν‚¬μ„ ν™œμš©ν•˜λ©΄ 더 큰 λͺ¨λΈκ³Ό λ™λ“±ν•œ μ„±λŠ₯을 λ‚Ό 수 μžˆμŒμ„ μ‹œμ‚¬ν•œλ‹€.

πŸ”‘ μ‹œμ‚¬μ  및 ν•œκ³„

β€’
μ—μ΄μ „νŠΈ μŠ€ν‚¬μ€ LLM μ—μ΄μ „νŠΈμ˜ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¬ 수 μžˆμœΌλ‚˜, κ·Έ νš¨κ³ΌλŠ” μž‘μ—…μ˜ νŠΉμ„±κ³Ό 도메인에 따라 크게 λ‹¬λΌμ§€λ―€λ‘œ μ‹ μ€‘ν•œ 섀계와 선택이 ν•„μš”ν•˜λ‹€.
β€’
ν˜„μž¬ LLM 기반 μ—μ΄μ „νŠΈλŠ” 효과적인 μ—μ΄μ „νŠΈ μŠ€ν‚¬μ„ 슀슀둜 μƒμ„±ν•˜λŠ” 데 어렀움을 κ²ͺκ³  있으며, μ™ΈλΆ€μ—μ„œ μ œκ³΅λ˜λŠ” νλ ˆμ΄μ…˜λœ μŠ€ν‚¬μ΄ 더 μœ μš©ν•˜λ‹€.
β€’
집쀑적이고 λͺ¨λ“ˆν™”λœ μŠ€ν‚¬ 섀계가 λ²”μš©μ μΈ λ¬Έμ„œν™”λ³΄λ‹€ 효율적이며, μ μ ˆν•œ μŠ€ν‚¬ ν™œμš©μ€ λͺ¨λΈ 크기와 상관없이 μ„±λŠ₯을 κ°œμ„ ν•  수 μžˆλ‹€.
β€’
λ³Έ μ—°κ΅¬μ—μ„œ μ œμ‹œλœ λ²€μΉ˜λ§ˆν¬λŠ” μ—μ΄μ „νŠΈ μŠ€ν‚¬μ˜ 효과λ₯Ό μ •λŸ‰μ μœΌλ‘œ ν‰κ°€ν•˜λŠ” 데 κΈ°μ—¬ν•˜μ§€λ§Œ, λ‹€μ–‘ν•œ ν™˜κ²½κ³Ό 더 λ³΅μž‘ν•œ μž‘μ—…μ— λŒ€ν•œ μŠ€ν‚¬μ˜ μ μš©μ„±μ„ μΆ”κ°€μ μœΌλ‘œ 검증할 ν•„μš”κ°€ μžˆλ‹€.
πŸ‘