강화 학습은 대규모 언어 모델(LLM)의 추론 능력 향상에 기여했으며, 다양한 분야에서 상당한 적용 가능성을 보여주었습니다. LLM 내 토큰은 추론 작업에서 고유한 역할을 수행하며, 고-엔트로피 추론 토큰과 저-엔트로피 지식 토큰으로 구분됩니다. 본 연구에서는 토큰 생성 단계에서 탐험적 행동을 명시적으로 촉진하기 위해, 서로 다른 토큰 유형에 대해 서로 다른 온도 설정을 적용하는 접근 방식을 제시합니다. 구체적으로, 추론 토큰에는 더 높은 온도를 적용하여 탐험을 적극적으로 장려하고, 지식 토큰에는 더 낮은 온도를 유지하여 사실적 정확성을 유지합니다. 또한, 강화 학습 맥락에서 다양한 다중 온도 스케줄링 전략과 그 영향을 체계적으로 조사합니다. 여러 추론 벤치마크에 대한 실증적 평가는 본 연구의 접근 방식이 LLM의 추론 성능을 유의미하게 향상시킴을 보여줍니다.