# SkillGenBench: Benchmarking Skill Generation Pipelines for LLM Agents

### 저자

Yifan Zhou, Zhentao Zhang, Ziming Cheng, Shuo Zhang, Qizhen Lan, Zhangquan Chen, Zhi Yang,  QianyuXu, Ronghao Chen, Huacan Wang, Sen Hu

### 💡 개요

이 논문은 LLM 에이전트의 핵심 구성 요소인 '스킬 생성'을 독립적인 연구 문제로 다루기 위한 새로운 벤치마크인 SkillGenBench를 제안합니다. SkillGenBench는 에이전트가 단순히 주어진 스킬을 사용하는 것을 넘어, 저장소나 문서에서 정확하고 재사용 가능하며 실행 가능한 스킬을 생성하는 능력을 평가합니다. 이를 통해 스킬 생성 파이프라인의 성능을 통일되고 제어된 프로토콜 하에 체계적으로 측정할 수 있습니다.

### 🔑 시사점 및 한계

- **스킬 생성 능력 평가의 중요성 부각**: 기존 벤치마크가 스킬 활용 능력에 초점을 맞추었던 것과 달리, 스킬 자체를 생성하는 능력의 중요성을 강조하고 이를 측정할 수 있는 프레임워크를 제시했습니다.

- **다양한 스킬 생성 시나리오 포괄**: 특정 작업을 위한 스킬 생성(task-conditioned)과 범용 스킬 라이브러리 구축(task-agnostic) 등 두 가지 주요 생성 모드를 다루며, 코드/스크립트 기반(repository-grounded)과 장문의 텍스트 기반(document-grounded)의 두 가지 소스 유형을 통해 현실적인 스킬 생성 환경을 모사했습니다.

- **스킬 생성의 어려움과 차별화된 실패 모드 발견**: 다양한 스킬 생성 방법론 실험을 통해 성능 편차가 크고, 특히 소프트웨어 저장소와 장문 문서에서 스킬을 추출하는 과정에서 각기 다른 실패 양상이 나타남을 밝혔습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.18693)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).