본 논문은 참조 솔루션 없이도 대규모 언어 모델(LLM)이 자체적으로 판단하여 효과적으로 자기 개선할 수 있음을 보여줍니다. 생성과 검증 간의 고유한 비대칭성을 활용하여 카운트다운 퍼즐과 MIT 적분 벌 문제에 대한 실험을 통해 모델이 정답 없이도 신뢰할 수 있는 보상 신호를 제공하여 이전에는 불가능했던 영역에서 강화 학습을 가능하게 함을 보여줍니다. 자체 판단을 구현함으로써 공식적인 검증과의 일관성을 유지하면서 성능이 크게 향상됩니다. 합성 질문 생성과 결합하여 모델이 연습 문제를 생성하고, 풀고, 자체 성능을 평가하는 완전한 자기 개선 루프를 구축합니다. Qwen 2.5 7B를 사용하여 기준선 대비 8% 향상을 달성했고, 적분 문제에서는 GPT-4o의 성능을 능가했습니다. 이러한 결과는 LLM 판단자가 모델 훈련을 위한 효과적인 보상 신호를 제공할 수 있음을 보여주며, 프로그래밍 방식의 보상을 만드는 어려움으로 인해 이전에는 제한적이었던 많은 강화 학습 환경을 열어줍니다. 이는 희소한 훈련 데이터나 복잡한 평가 요구 사항이 있는 영역에서 진행 속도를 높일 수 있는 인간의 지도가 아닌 자기 주도적인 학습을 통해 지속적으로 향상되는 AI 시스템으로의 패러다임 전환 가능성을 시사합니다.