본 논문은 대규모 언어 모델(LLM)의 한계점을 해결하기 위해, 인간의 이중 과정 이론에서 영감을 얻은 새로운 프레임워크인 LLM2를 제안합니다. LLM2는 생성 모델(System 1)인 LLM과 검증 모델(System 2)로 구성되어 있습니다. LLM은 가능성 있는 결과를 생성하고, 검증 모델은 프로세스 기반 피드백을 제공하여 바람직한 결과와 바람직하지 않은 결과를 구분합니다. 검증 모델은 토큰 품질 탐색 전략을 통해 생성된 합성 프로세스 감독 데이터를 사용하여 쌍 비교 손실로 학습됩니다. 수학적 추론 벤치마크 실험 결과, LLM2는 Llama3-1B 모델의 GSM8K 정확도를 50.3%에서 57.8%(+7.5%)로 향상시켰으며, 자기 일관성과 결합하면 major@20 정확도를 56.2%에서 70.2%(+14.0%)로 더욱 향상시켰습니다.