본 논문은 검증 가능한 언어를 활용하여 수학 문제를 해결하는 모델의 효율성을 높이기 위해, 문제 생성기와 해결사를 적대적 방식으로 함께 학습시키는 GAR (Generative Adversarial Reinforcement learning) 프레임워크를 제안합니다. GAR은 암묵적인 교육 과정 학습 메커니즘을 도입하여 해결사의 능력에 맞춰 문제 난이도를 조절함으로써 훈련 효율성을 향상시키고, 더 어려운 정리를 증명하는 데 기여합니다. 실험 결과, GAR을 사용하여 Goedel-Prover-V2-8B 및 DeepSeek-Prover-V2-7B 모델이 MiniF2F-Test 벤치마크에서 pass@32를 평균 4.20% 향상시켰으며, DeepSeek-Prover-V2는 ProofNet-Test에서 pass@32를 22.58%에서 25.81%로 증가시켰습니다. GAR은 공식 증명 외에도, 검증 가능한 환경에서 문제 생성과 해결의 공동 진화를 위한 일반적인 RL 패러다임을 제시합니다.