강화 학습(RL)이 언어 모델의 추론 및 일반화 능력을 향상시키는 과정에서 기억된 지식을 저하시킨다는 통념에 반하여, 본 연구는 RL이 계층적 지식 구조(예: 의료 코드)를 탐색해야 하는 지식 회상 태스크에서 기본 모델 및 지도 학습된 미세 조정(SFT) 모델보다 일관되게 우수한 성능을 보임을 관찰했다. 이는 RL이 새로운 데이터를 습득한 것이 아니라 모델 내 기존 지식 계층을 탐색하고 검색하는 절차적 기술을 향상시킨 결과라고 가설을 세웠다. 구조화된 프롬프팅을 통해 SFT 모델의 성능 격차를 상당 부분 줄일 수 있으며, RL 모델이 심층 검색 태스크에서 정확한 절차적 경로를 더 잘 기억한다는 것을 발견했다. 또한 활성화 분석을 통해 RL이 지식 표현 자체보다는 모델의 지식 탐색 방식을 주로 변화시킨다는 것을 확인했다.