Bài báo này nghiên cứu liệu các mô hình ngôn ngữ được đào tạo trước có thể nâng cao khả năng lập luận của chúng bằng cách tạo ra các câu hỏi và câu trả lời một cách độc lập, mà không cần dữ liệu bên ngoài hay không. Để đạt được điều này, chúng tôi đề xuất Mô hình ngôn ngữ tự hỏi (SQLM), một khuôn khổ tự học không đối xứng. Người đề xuất nhận được một chủ đề và tạo ra các câu hỏi, trong khi người giải quyết trả lời các câu hỏi. Cả người đề xuất và người giải quyết đều được đào tạo thông qua học tăng cường. Người đề xuất nhận được phần thưởng khi tạo ra một vấn đề có độ khó phù hợp và người giải quyết nhận được phần thưởng khi xác định tính đúng đắn của câu trả lời thông qua biểu quyết đa số. Đối với các vấn đề mã hóa, người đề xuất tạo ra các bài kiểm tra đơn vị, được sử dụng để xác thực. Các thí nghiệm được tiến hành trên ba điểm chuẩn: phép nhân ba chữ số, các bài toán đại số từ điểm chuẩn OMEGA và các bài toán lập trình từ Codeforces. Chúng tôi chứng minh rằng mô hình ngôn ngữ có thể cải thiện hiệu suất mà không cần dữ liệu bên ngoài.