본 논문은 대규모 언어 모델(LLM) 기반 자동화된 침투 테스트(AutoPT) 프레임워크인 RefPentester를 제안합니다. 기존 LLM 기반 AutoPT 프레임워크는 지식 불균형, 단기적인 계획, 환각 등의 문제로 인해 인간 전문가보다 성능이 떨어지는 한계를 가지고 있습니다. RefPentester는 침투 테스트 과정을 7단계 상태 머신으로 모델링하고, 각 단계에 적합한 전술과 기법을 선택하며, 단계별 실행 지침을 제공하고, 이전 실패 경험으로부터 학습하는 기능을 통해 이러한 문제점을 해결합니다. Hack The Box의 Sau 머신을 대상으로 한 평가 결과, RefPentester는 기준 모델인 GPT-4o보다 16.7% 향상된 성능을 보였으며, 각 단계별 성공률 또한 우수했습니다.