본 논문은 웹셸 악성 코드 생성을 위한 새로운 방법인 RAWG(Reward-driven Automated Webshell Malicious-code Generator)를 제안합니다. 기존 방법들의 한계인 낮은 다양성과 높은 중복성을 극복하기 위해, 7가지 난독화 기법으로 분류된 웹셸 샘플들을 사용하여 대규모 언어 모델(LLM)을 통해 표준화된 고품질 말뭉치를 생성합니다. 이를 바탕으로 지도 학습 미세 조정(SFT)과 근접 정책 최적화(PPO) 강화 학습을 통해 다양하고 높은 난독화 수준의 웹셸 악성 코드 생성을 가능하게 합니다. 실험 결과, RAWG는 기존 최첨단 방법보다 페이로드 다양성과 탐지 회피 효과가 훨씬 뛰어남을 보여줍니다.