본 논문은 대규모 추론 모델(LRM)의 발전에 따라 자원 효율적인 소규모 추론 모델 훈련의 필요성을 제기하며, 이를 위해 Critique-Rethink-Verify (CRV) 시스템과 Cognitive Preference Optimization (CogPO) 알고리즘을 제안한다. CRV 시스템은 소규모 모델의 인지 능력에 맞춰 CoT(Chain-of-Thought)를 비판, 재고, 검증하는 여러 LLM 에이전트로 구성된다. CogPO 알고리즘은 소규모 모델의 추론 과정을 인지 능력에 맞춰 지속적으로 향상시킨다. 제안된 CRV+CogPO 프레임워크는 어려운 추론 벤치마크에서 다른 방법들을 크게 능가하는 성능을 보였다.