この論文では、事前訓練された言語モデルが外部データなしで独自に質問と回答を生成して推論能力を向上させることができるかどうかを研究します。この目的のために提案されたSelf-Questioning Language Models(SQLM)は非対称の自己学習フレームワークです。提案者と解決者は強化学習を通じて訓練され、提案者は適切な難易度の問題を生成したときに報酬を受け取り、解決者は多数決投票で正解かどうかを判断して報酬を受け取ります。コーディング問題の場合、提案者は単体テストを生成し、それを検証に使用します。 3桁の数値乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題など、3つのベンチマークで実験を行い、外部データなしで言語モデルがパフォーマンスを向上できることを示しています。