# Towards Effective Offensive Security LLM Agents: Hyperparameter Tuning, LLM as a Judge, and a Lightweight CTF Benchmark

### 저자

Minghao Shao, Nanda Rani, Kimberly Milner, Haoran Xi, Meet Udeshi, Saksham Aggarwal, Venkata Sai Charan Putrevu, Sandeep Kumar Shukla, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Muhammad Shafique

### 💡 개요

본 연구는 LLM 기반 공격 보안 에이전트의 성능 향상을 위한 체계적인 접근법을 제시하며, CTF 문제 해결 과정을 평가하는 'LLM as a Judge' 방식의 CTFJudge 프레임워크와 부분적인 정답률을 측정하는 CTF Competency Index(CCI)를 제안합니다. 또한, LLM의 하이퍼파라미터(temperature, top-p, max token length)가 에이전트 성능에 미치는 영향을 분석하고, 50개의 대표 CTF 문제로 구성된 경량 벤치마크 CTFTiny를 개발하여 연구 결과를 검증합니다.

### 🔑 시사점 및 한계

- LLM 기반 공격 보안 에이전트의 성공을 이끄는 주요 요소를 체계적으로 분석하고 최적의 하이퍼파라미터 설정과 에이전트 협업 방식을 제시합니다.

- LLM을 활용한 CTF 문제 해결 과정 평가 방식과 부분 정답률 측정 지표를 통해 기존 평가 방식의 한계를 보완하고 보다 정밀한 성능 측정이 가능해집니다.

- CTFTiny 벤치마크를 공개하여 향후 LLM 기반 사이버 보안 연구를 위한 표준화된 평가 환경을 제공합니다.

- 제안된 방법론의 효과성이 LLM 모델의 종류와 특정 CTF 문제 유형에 따라 달라질 수 있으며, 복잡하고 현실적인 공격 시나리오에 대한 확장성은 추가 연구가 필요합니다.

---

[PDF 보기](https://arxiv.org/pdf/2508.05674)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
