PentestJudge는 침투 테스트 에이전트의 작동을 평가하기 위한 시스템입니다. LLM(대규모 언어 모델)을 판사로 사용하여 에이전트의 상태와 도구 호출 기록을 분석하고, 프로그래밍 방식으로 평가하기 어려운 운영 기준을 충족하는지 여부를 판단합니다. 계층적 트리 구조의 평가 기준을 개발하여 침투 테스트 작업을 더 작고 단순한 하위 작업으로 분해하고, 각 잎 노드는 PentestJudge가 평가하는 단순한 예/아니오 기준을 나타냅니다. 작업 노드는 운영 목표, 운영 보안 및 기술 등의 범주로 분류됩니다. LLM 판사의 점수는 인간 전문가의 점수와 비교하여 F1 점수와 같은 이진 분류 지표를 사용하여 성능을 평가합니다. 여러 LLM 모델을 평가한 결과, 최고 모델은 0.83의 F1 점수를 달성했으며, 도구 사용 능력이 뛰어난 모델이 인간 전문가와 더 유사한 결과를 보였습니다. 요구 사항 유형별로 F1 점수를 계층화하여 분석한 결과, 전반적인 점수가 비슷한 모델이라도 특정 유형의 질문에는 어려움을 겪는다는 것을 발견했습니다. 또한, 저렴한 모델이 고성능 모델의 침투 테스트 과정을 평가할 수 있다는 것을 확인하여, 침투 테스트 작업에서 검증이 생성보다 더 쉽다는 것을 시사합니다. 이 방법론을 공유하여 AI 기반 정보 보안 에이전트의 프로세스 품질을 전체적이고 확장 가능하게 평가하는 능력에 대한 향후 연구를 촉진하고, 민감한 운영 환경에서 안전하게 사용할 수 있도록 합니다.