본 논문은 대규모 언어 모델(LLM)의 초등학교 수학(GSM) 추론의 견고성 부족 문제를 해결하기 위해, 합성 데이터 생성 대신 추론 문제의 "추상화" 전략을 제시한다. 구체적으로, 강화 학습(RL)을 통해 추상화 과정을 학습시키는 AbstRaL (Abstract Reasoning in LLMs using RL) 방법을 제안한다. AbstRaL은 세분화된 추상화 데이터를 활용하여 LLM의 추론 능력을 향상시키고, GSM 벤치마크에서 성능 저하를 완화한다. 또한, GSM 견고성 향상이 OOD 수학 및 일반 추론 작업에도 긍정적인 영향을 미친다는 것을 보여준다.