본 논문은 reasoning-oriented language model에서 강화학습(RL) fine-tuning이 새로운 능력을 생성하는 것이 아니라 사전 학습된 네트워크에 이미 잠재되어 있는 추론 패턴을 강화한다는 주장을 검증합니다. 이를 위해, 기존 가중치는 변경하지 않고 선택된 은닉 특징을 더하는 방식으로 계층별 편향을 조정하는 steering vector를 학습합니다. GSM8K 및 MATH 벤치마크에서 네 가지 기본 모델을 사용한 실험 결과, steering vector는 완전히 fine-tuning된 모델의 정확도를 회복하고, 심지어 일부 경우에는 능가하는 것을 보여줍니다. 이는 필요한 추론 능력이 기본 모델에 이미 존재한다는 견해를 뒷받침합니다. 또한 logit-lens 분석을 통해 학습된 벡터가 구조화된 언어 및 논리적 연결어와 관련된 토큰 그룹을 일관되게 강화하는 것을 확인하여, 정량적 추론 작업의 요구 사항과 일치하는 해석 가능한 설명을 제공합니다.