본 논문은 사이버 보안 분야에서 공격적인 용도로 사용되는 대규모 언어 모델(LLM)의 평가 방법론과 벤치마킹 관행을 분석합니다. 16편의 연구 논문과 15개의 프로토타입 및 해당 테스트베드를 검토하여 LLM 기반 공격에 대한 연구 현황을 분석하고 향후 연구를 위한 실행 가능한 권장 사항을 제시합니다. 기존 테스트베드 확장, 기준선 생성, 포괄적인 지표 및 질적 분석 포함의 중요성을 강조하며, 보안 연구와 실제 사이의 차이점을 지적하고 CTF 기반 과제가 실제 침투 테스트 시나리오를 완전히 반영하지 못할 수 있음을 언급합니다.