본 논문은 대규모 언어 모델(LLM)의 추론 시 신뢰성을 향상시키기 위해 외부적 피드백을 활용하는 새로운 프레임워크인 Distillation-Reinforcement-Reasoning (DRR)을 제안한다. DRR은 모델 자체의 자기 성찰(introspection)에 의존하는 기존의 자가 비판 방식의 한계를 극복하고, 행동 관찰을 통해 피드백을 제공한다. DRR은 추론 과정의 행동 궤적을 추출하고, 이를 기반으로 경량화된 외부 판별 모델(DM)을 훈련시켜 추론 단계에서 오류를 식별하고 거부한다. 이를 통해 LLM은 결함 있는 경로를 버리고 대안을 탐색하도록 유도되어, 기본 모델을 변경하지 않고도 추론 품질을 향상시킨다.