본 논문은 외부 검증자가 필요 없는 강화 학습 프레임워크인 NOVER(NO-VERifier Reinforcement Learning)를 제안합니다. 기존의 인센티브 학습 방식은 수학이나 코딩과 같이 외부 검증자가 쉽게 이용 가능하지 않은 영역에서는 적용이 제한적이었는데, NOVER는 외부 검증자 없이 표준적인 지도 학습 미세 조정 데이터만을 사용하여 인센티브 학습을 가능하게 합니다. NOVER는 다양한 텍스트-텍스트 작업에서 적용 가능하며, DeepSeek R1 671B와 같은 대규모 추론 모델에서 증류된 동일 크기의 모델보다 7.7% 향상된 성능을 보입니다. 또한, NOVER의 유연성을 통해 역 인센티브 학습과 같은 대규모 언어 모델 최적화를 위한 새로운 가능성을 제시합니다.