본 논문은 제한된 자원으로도 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 새로운 방법인 Universal Reasoner (UniR)를 제안합니다. UniR은 LLM의 아키텍처에 의존하지 않고 독립적으로 학습되는 경량의 추론 모듈로, 사전 정의된 보상을 사용하여 훈련됩니다. 추론 과정에서 기존 LLM의 출력 로짓에 UniR의 출력 로짓을 더하는 방식으로 작동하며, 여러 UniR 모듈을 결합하여 복잡한 추론을 수행할 수 있습니다. Llama3.2 모델을 사용한 수학적 추론 및 기계 번역 실험 결과, UniR은 기존 파라미터 효율적 미세 조정(PEFT) 방법보다 우수한 성능을 보였으며, 작은 모델에서 훈련된 UniR 모듈이 큰 LLM에도 효과적으로 적용되는 강력한 일반화 능력을 입증했습니다. 이는 비용 효율적이고 적응력이 뛰어나며, LLM의 기본 기능을 저해하지 않고 추론 능력을 향상시키는 강력한 솔루션임을 시사합니다. 코드는 공개적으로 제공됩니다.