본 논문은 강화 학습(RL)을 통해 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 과정에서 발생하는 데이터 비효율성 문제를 해결하기 위해, 새로운 기울기 정렬 기반 방법인 LearnAlign을 제시합니다. LearnAlign은 RL 후속 학습을 위한 학습 가능하고 대표적인 추론 데이터를 선택적으로 사용합니다. 기울기 규범에서의 응답 길이 편향 문제를 해결하기 위해, 각 데이터 포인트의 학습 가능성을 성공률을 기반으로 판단합니다. 세 가지 수학적 추론 벤치마크에 대한 실험 결과, LearnAlign은 전체 데이터 학습과 비교하여 성능 저하 없이 또는 성능 향상까지 이루면서 학습 데이터 요구량을 크게 줄이는 것을 보여줍니다. 예를 들어, GSM8K 벤치마크에서 전체 데이터셋(77.04%)보다 높은 성능(77.53%)을 달성하면서 최대 1,000개의 데이터 포인트까지 학습 데이터 요구량을 줄였습니다. 또한, 단계적 RL 설정에서의 효과도 보여줍니다. 본 연구는 데이터 효율적인 RL 후속 학습에 대한 귀중한 통찰력을 제공하며, 추론 데이터 선택 최적화에 대한 미래 연구의 기반을 마련합니다. 코드는 공개될 예정입니다.