본 논문은 사전 훈련된 언어 모델이 외부 데이터 없이 스스로 질문과 답변을 생성하여 추론 능력을 향상시킬 수 있는지 여부를 조사합니다. 이를 위해, 주제(예: 대수 문제)를 지정하고 모델이 스스로 질문을 생성하도록 하는 단일 프롬프트만 제공하는 방법을 제안합니다. 제안자(질문 생성)와 해결자(답변 생성)로 구성된 비대칭 자가 학습 프레임워크인 Self-Questioning Language Models (SQLM)을 제시하며, 강화 학습을 통해 두 역할 모두 훈련됩니다. 제안자는 적절한 난이도의 문제를 생성할 때 보상을 받고, 해결자는 다수결 투표(정답이 없는 경우 근사치)를 기반으로 보상을 받습니다. 코딩 문제의 경우, 제안자는 단위 테스트를 생성하고 이를 검증에 사용합니다. 세 자리 수 곱셈, OMEGA 벤치마크의 대수 문제, Codeforces의 프로그래밍 문제 등 세 가지 벤치마크에서 이 프레임워크를 연구하며, 외부 훈련 데이터셋 없이도 언어 모델이 성능을 향상시킬 수 있음을 보여줍니다.