본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 프레임워크인 Critique-Rethink-Verify (CRV)를 제시합니다. 기존의 대규모 모델에서 소규모 모델로 추론 능력을 직접 이전하는 방식의 비효율성을 해결하기 위해, CRV는 비판(Critique), 재고(Rethink), 검증(Verify)의 세 가지 단계를 거치는 다중 LLM 에이전트 기반 접근 방식을 사용합니다. 각 에이전트는 소규모 모델의 인지 능력에 맞춰 추론 과정을 비판하고, 수정하며, 최종 결과의 정확성을 검증하는 역할을 수행합니다. 또한, 소규모 모델의 사고 과정을 그 모델의 인지 능력에 맞추는 알고리즘인 Cognitive Preference Optimization (CogPO)을 제안합니다. 실험 결과, CRV와 CogPO는 기존 방법들보다 우수한 성능을 보임을 확인했습니다.