본 논문은 인간의 개입 없이 언어 모델이 자기 학습을 통해 추론 능력을 향상시키는 새로운 프레임워크인 SPIRAL을 제안합니다. SPIRAL은 언어 모델들이 상호 제로섬 게임을 통해 지속적으로 향상된 버전의 자신과 대결하며 학습하는 자기 대결(self-play) 방식을 사용합니다. 이를 통해 인간이 문제와 답을 일일이 제공하거나 보상 체계를 설계할 필요가 없어집니다. 대규모 자기 대결 학습을 위해, 본 논문에서는 완전 온라인 방식의 다턴, 다에이전트 강화 학습 시스템과 역할 조건부 이점 추정(RAE) 기법을 제안합니다. Kuhn Poker 게임을 통해 Qwen3-4B-Base 모델을 학습시킨 결과, 수학 추론 및 일반 추론 능력이 각각 8.6%, 8.4% 향상되었으며, 25,000개의 전문가 게임 기록을 이용한 SFT보다 성능이 뛰어났습니다. 이는 체계적인 분해, 기댓값 계산, 사례별 분석 등의 인지 패턴을 통해 이루어졌음을 분석 결과 보여줍니다. 다양한 게임(틱택토, Kuhn Poker, 간단한 협상)을 이용한 학습은 각 게임이 특정 추론 능력을 향상시키는 효과를 가져왔습니다. 강력한 추론 모델(DeepSeek-R1-Distill-Qwen-7B)에 SPIRAL을 적용한 결과에서도 평균 2.0%의 성능 향상이 나타났습니다. 이는 제로섬 게임이 일반화 가능한 추론 능력을 자연스럽게 발전시킨다는 것을 보여주는 결과입니다.