본 논문은 열린 문제 생성 작업에서 발생하는 다양한 평가 기준 만족의 어려움을 해결하기 위해 동적 평가 기준 검증을 활용하는 후속 훈련 접근 방식인 RLAC (Reinforcement Learning with Adversarial Critic)를 제안합니다. RLAC는 대규모 언어 모델(LLM)을 비평가로 활용하여 실패 가능성이 높은 측면을 동적으로 식별하고, 이를 외부 검증자를 통해 검증하여 생성기와 비평가를 함께 최적화합니다. 이를 통해 검증 횟수를 줄이면서 생성기의 품질과 비평가의 오류 감지 능력을 향상시킵니다. 실험 결과, RLAC는 텍스트 생성의 사실 정확성과 코드 생성의 정확성을 향상시켰으며, 전수 검증 및 보상 모델 기반 방법보다 뛰어난 성능을 보였습니다.