HES-SQL은 thinking-mode-fused supervised fine-tuning (SFT)과 Group Relative Policy Optimization (GRPO)을 통합하여 Text-to-SQL 생성을 개선하는 새로운 하이브리드 훈련 프레임워크이다. 이 프레임워크는 (1) 생성된 쿼리와 최적의 SQL 구조 간의 선호도 정렬을 향상시키는 skeleton-completeness scoring 메커니즘, (2) 계산 효율적인 SQL 쿼리 생성을 장려하는 query-latency-aware reward system, (3) 모델의 추론 능력 저하를 방지하는 thinking-mode completion을 위한 self-distillation process의 세 가지 주요 혁신을 도입했다. MySQL 8.0 및 SQLite 3.42에서 실험을 수행한 결과, BIRD 벤치마크에서 79.14%, KaggleDBQA 벤치마크에서 54.9%의 실행 정확도를 달성하며, 감독 학습 기반 모델 대비 11%에서 20%의 효율성 향상을 보였다.