Trong bài báo này, chúng tôi chỉ ra những hạn chế của RL truyền thống trong việc cải thiện khả năng suy luận đa cấp của các mô hình suy luận ngôn ngữ quy mô lớn (LLM) bằng cách sử dụng học tăng cường (RL) và đề xuất một phương pháp mới, Question Augmentation (QuestA), để giải quyết những hạn chế này. QuestA giảm độ khó của bài toán bằng cách thêm các giải pháp cục bộ trong quá trình học RL, do đó cung cấp nhiều tín hiệu huấn luyện có thông tin hơn. Khi QuestA được áp dụng trong quá trình học RL cho các tác vụ suy luận toán học, hiệu suất Pass@1 và Pass@k được cải thiện, đặc biệt là đối với các bài toán mà RL truyền thống gặp khó khăn. Bằng cách cải thiện hơn nữa khả năng suy luận của các mô hình nguồn mở mạnh mẽ như DeepScaleR và OpenMath Nemotron, chúng tôi đạt được kết quả tiên tiến mới (lần lượt là 67,1%, 59,5% và 35,5%) trên các điểm chuẩn AIME24, AIME25 và HMMT25. Ngoài ra, chúng tôi cung cấp một lời giải thích lý thuyết về lý do tại sao QuestA cải thiện hiệu quả mẫu, đề xuất một phương pháp thực tế và có thể khái quát hóa để mở rộng khả năng suy luận thông qua RL.