본 논문은 대규모 언어 모델(LLM)의 논리적 추론 능력 향상을 위한 새로운 프레임워크인 역사고(RoT)를 제안합니다. 기존 방법들이 계산 비용 증가 또는 유연성 저하라는 한계를 가지는 반면, RoT는 배치 추론 전 준비 단계에서 플러그 앤 플레이 방식으로 LLM의 논리적 추론 능력을 향상시킵니다. RoT는 선호도 기반 역추론 전략을 활용하여 메타인지 메커니즘과 쌍방향 선호도 자기 평가를 통해 작업별 프롬프트를 생성합니다. 이는 강화 학습을 통한 인간 피드백(RLHF)에 의해 형성된 LLM의 인지적 선호도에 맞춰 설계되었습니다. 역추론을 통해 인지적 선호도 관리자는 지식의 경계를 평가하고, 알려진 작업에 대한 해결책 논리와 알려지지 않은 작업에 대한 스타일 템플릿을 집계하여 LLM의 추론 능력을 확장합니다. 다양한 작업에 대한 실험 결과, RoT는 기존 기준 모델보다 추론 정확도와 효율성 모두에서 우수한 성능을 보였습니다.