Trong bài báo này, chúng tôi nghiên cứu vai trò của học tăng cường (RL) trong việc cải thiện khả năng suy luận chuỗi suy nghĩ của các mô hình ngôn ngữ quy mô lớn (LLM). Trước tiên, chúng tôi chứng minh rằng các mẫu 'khoảnh khắc aha' (phản xạ thông qua tự hiệu chỉnh) tồn tại ngay cả trước khi huấn luyện RL trong các LLM đa phương thức (MLLM), nhưng chúng có thể không tương quan với việc cải thiện hiệu suất suy luận. Dựa trên điều này, chúng tôi trình bày một phương pháp hai bước kết hợp tinh chỉnh học có giám sát (SFT) sử dụng các mẫu suy luận chuỗi suy nghĩ có cấu trúc và học tăng cường sử dụng GRPO. Kết quả thực nghiệm cho thấy phương pháp này vượt trội hơn các phương pháp chỉ sử dụng SFT và chỉ sử dụng RL trên nhiều chuẩn mực suy luận đa phương thức. Nó đạt được hiệu suất tiên tiến nhất trong số các MLLM nguồn mở cho cả mô hình 3B và 7B, và đặc biệt, mô hình 7B cải thiện đáng kể hiệu suất so với các mô hình cơ sở (ví dụ: MathVista 66,3% → 73,4%, We-Math 62,9% → 70,4%). Nghiên cứu này cung cấp hướng dẫn thực tế để xây dựng các mô hình suy luận đa phương thức nâng cao và mã nguồn được công khai trên GitHub.