본 논문은 웹 서비스에서 대규모 언어 모델(LLM)의 급속한 발전에 따른 사회적 위험 증폭 문제를 해결하기 위해, 진화하는 위협과 안전 장치 간의 동적 상호 작용에 주목하여 'ACE-Safety'라는 새로운 프레임워크를 제안합니다. ACE-Safety는 (1) 취약점을 발견하고 다양한 적대적 샘플을 생성하기 위해 Group-aware Strategy-guided Monte Carlo Tree Search (GS-MCTS)를 활용한 공격 모델, (2) curriculum reinforcement learning을 통해 공격 및 방어 LLM을 공동 훈련하는 Adversarial Curriculum Tree-aware Group Policy Optimization (AC-TGPO)를 통해 공격과 방어 모델을 함께 최적화합니다. 다양한 벤치마크를 통해 제안된 방법이 기존 공격 및 방어 방식보다 우수함을 입증하며, 책임감 있는 AI 생태계를 지속적으로 지원할 수 있는 LLM 개발에 대한 실현 가능한 경로를 제시합니다.