본 논문은 사전 훈련된 언어 모델이 외부 데이터 없이 자체적으로 질문과 답변을 생성하여 추론 능력을 향상시킬 수 있는지 여부를 연구합니다. 이를 위해 제안된 Self-Questioning Language Models (SQLM)은 비대칭 자가 학습 프레임워크로, 제안자(proposer)는 주제를 받아 질문을 생성하고, 해결자(solver)는 질문에 답하는 구조입니다. 제안자와 해결자는 강화 학습을 통해 훈련되며, 제안자는 적절한 난이도의 문제를 생성했을 때 보상을 받고, 해결자는 다수결 투표를 통해 정답 여부를 판단하여 보상을 받습니다. 코딩 문제의 경우 제안자는 단위 테스트를 생성하고, 이를 검증에 사용합니다. 세 자리 숫자 곱셈, OMEGA 벤치마크의 대수 문제, Codeforces의 프로그래밍 문제 등 세 가지 벤치마크에서 실험을 진행하여, 외부 데이터 없이도 언어 모델이 성능을 향상시킬 수 있음을 보여줍니다.