본 논문은 대규모 추론 모델(LRM) 내 혼합 전문가(MoE) 아키텍처의 추론 능력 향상을 위한 새로운 추론 시간 조향 방법론인 RICE(Reinforcing Cognitive Experts)를 제시합니다. RICE는 추가적인 훈련이나 복잡한 휴리스틱 없이 정규화된 점 상호 정보(nPMI)를 활용하여 메타 수준 추론 작업을 조율하는 '인지 전문가'를 체계적으로 식별함으로써 과도한 사고와 부족한 사고와 같은 인지적 비효율성을 해결합니다. DeepSeek-R1과 Qwen3-235B와 같은 주요 MoE 기반 LRM에 대한 실증적 평가 결과, 추론 정확도, 인지 효율성 및 도메인 간 일반화가 눈에 띄게 향상됨을 보여줍니다. 또한, 프롬프트 디자인이나 디코딩 제약과 같은 기존의 추론 조향 기술보다 성능이 뛰어나면서 모델의 일반적인 지시 사항 따르기 능력은 유지합니다.