Bài báo này trình bày nghiên cứu về việc liệu các mô hình ngôn ngữ quy mô lớn có thể cải thiện hiệu suất bằng cách tạo ra các câu hỏi và câu trả lời một cách độc lập, mà không cần dữ liệu bên ngoài hay không. Để đạt được điều này, chúng tôi đề xuất một khuôn khổ tự học bất đối xứng được gọi là Mô hình Ngôn ngữ Tự Hỏi (SQLM). SQLM bao gồm một trình đề xuất tạo ra các câu hỏi và một trình giải tạo ra các câu trả lời, được huấn luyện thông qua học tăng cường. Trình đề xuất hướng đến việc tạo ra các bài toán có độ khó phù hợp, và trình giải được đánh giá là đúng thông qua biểu quyết đa số. Đối với các bài toán mã hóa, trình đề xuất tạo ra các bài kiểm tra đơn vị mà trình giải sẽ kiểm chứng. Chúng tôi đã tiến hành các thử nghiệm trên ba chuẩn: phép nhân ba chữ số, các bài toán đại số từ chuẩn OMEGA và các bài toán lập trình từ Codeforces, chứng minh sự cải thiện hiệu suất mà không cần dữ liệu bên ngoài.