본 논문은 강화학습(RL) 기반 대규모 언어 모델(LLM)의 추론 능력 향상 연구에 관한 것이다. 특히, 메모리 효율이 높고 DeepSeek-R1 훈련에 성공적으로 사용된 GRPO(Group Relative Policy Optimization) 알고리즘의 한계점을 해결하는 데 초점을 맞추고 있다. GRPO는 모든 샘플 응답이 잘못된 경우(전부 부정적 샘플 그룹) 정책 업데이트에 실패하여 학습이 지체되는 문제가 있다. 본 논문은 AI 피드백을 활용하여 전부 부정적 샘플 그룹 내 응답 다양성을 도입하는 간단하면서도 효과적인 프레임워크를 제안한다. 또한, 단순화된 모델을 통한 이론적 분석을 통해 응답 다양화가 학습 역동성을 개선하는 방식을 보여준다. 다양한 모델 크기(7B, 14B, 32B)와 10개의 벤치마크(기본 및 증류 버전 포함)를 사용한 오프라인 및 온라인 학습 설정에서 실험적으로 접근 방식의 성능 향상을 검증한다. 결과적으로 전부 부정적 샘플 그룹으로부터의 학습이 가능할 뿐만 아니라 유익하다는 것을 보여주며, Xiong et al.(2025)의 최근 연구 결과를 발전시킨다.