본 논문은 대규모 언어 모델(LLM)의 추론 과정의 신뢰성을 높이기 위해 외부 관찰 기반의 프레임워크인 Distillation-Reinforcement-Reasoning (DRR)을 제안한다. 기존의 자기 성찰 기반 방법론의 한계점을 극복하고, 모델의 행동을 관찰하여 피드백을 제공하는 방식으로 추론 품질을 향상시킨다. DRR은 추론 과정의 흔적을 추출하고, 경량의 외부 판별 모델(DM)을 학습시켜 추론 단계에서 의심스러운 부분을 식별하고 거부한다. 이를 통해 LLM은 오류가 있는 경로를 버리고 대안을 탐색하도록 유도되어, 기반 모델을 변경하지 않고도 추론의 신뢰성을 개선한다.