본 논문은 사전 훈련된 언어 모델이 외부 데이터 없이도 자체적으로 질문과 답변을 생성하여 추론 능력을 향상시킬 수 있는지 여부를 연구합니다. 이를 위해 제안된 Self-Questioning Language Models (SQLM)은 제안자(proposer)와 해결자(solver)로 구성된 비대칭 자가 학습 프레임워크를 사용합니다. 제안자는 주어진 주제에 대해 질문을 생성하고, 해결자는 이를 해결하려고 시도합니다. 강화 학습을 통해 제안자는 적절한 난이도의 문제를 생성할 때 보상을 받고, 해결자는 다수결 투표를 통해 정답 여부에 따라 보상을 받습니다. 코딩 문제의 경우, 제안자는 단위 테스트를 생성하여 검증에 활용합니다. 세 자릿수 곱셈, OMEGA 벤치마크의 대수 문제, Codeforces의 프로그래밍 문제 등 세 가지 벤치마크에서 실험을 진행하여 외부 데이터셋 없이도 언어 모델의 성능 향상을 확인했습니다.