Vấn đề chuyển đổi ngôn ngữ tự nhiên sang SQL của Test2SQL là một thách thức lâu dài tại giao điểm của sự hiểu biết ngôn ngữ tự nhiên và truy cập dữ liệu có cấu trúc. Trong khi các mô hình ngôn ngữ quy mô lớn (LLM) đã cải thiện đáng kể tính lưu loát của việc tạo SQL, việc tạo ra SQL chính xác và có thể thực thi vẫn là một nút thắt, đặc biệt là đối với các truy vấn phức tạp. Trong bài báo này, chúng tôi trình bày Arctic-Text2SQL-R1, một khuôn khổ học tăng cường (RL) và họ các mô hình được thiết kế để tạo ra SQL chính xác và có thể thực thi bằng cách sử dụng tín hiệu phần thưởng nhẹ chỉ dựa trên độ chính xác thực thi. Cách tiếp cận của chúng tôi tránh giám sát trung gian yếu và điều chỉnh phần thưởng phức tạp, tạo điều kiện cho việc đào tạo ổn định và liên kết với nhiệm vụ cuối cùng. Kết hợp với dữ liệu được quản lý cẩn thận, khởi tạo giám sát mạnh mẽ và một lược đồ đào tạo hiệu quả, Arctic-Text2SQL-R1 đạt được độ chính xác thực thi tiên tiến trên sáu điểm chuẩn Test2SQL khác nhau, bao gồm cả thứ hạng cao nhất trên bảng xếp hạng BIRD. Đặc biệt, mô hình 7B vượt trội hơn các hệ thống lớp 70B trước đó, làm nổi bật khả năng mở rộng và hiệu quả của khuôn khổ. Chúng tôi cũng chứng minh tính mạnh mẽ của thời gian suy luận với các phần mở rộng đơn giản như tra cứu giá trị và bỏ phiếu đa số. Các thí nghiệm và nghiên cứu cắt bỏ mở rộng cung cấp cả thông tin tích cực và tiêu cực, cung cấp hướng dẫn thực tế cho nghiên cứu Test2SQL trong tương lai.