본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 모듈인 Universal Reasoner (UniR)를 제안합니다. UniR은 경량화되고, 구성 가능하며, 플러그 앤 플레이 방식으로 어떤 LLM에도 적용 가능한 독립적인 추론 모듈입니다. 사전 정의된 보상을 사용하여 독립적으로 학습되며, 추론 과정을 토큰 단위의 안내로 변환합니다. 추론 시에는 LLM의 출력 로짓에 UniR의 출력 로짓을 단순히 더하는 방식으로 작동하며, 여러 UniR 모듈을 결합하여 복잡한 추론을 수행할 수 있습니다. Llama3.2 모델을 사용한 실험 결과, 기존 파라미터 효율적 미세 조정(PEFT) 방법보다 우수한 성능을 보였으며, 작은 모델에서 학습된 모듈이 큰 LLM에도 효과적으로 적용되는 강건한 일반화 능력을 보여줍니다.