본 논문은 Text-to-SQL 과제에서 강화학습(RL) 기반의 새로운 접근법을 제시합니다. 기존의 Text-to-SQL 모델들이 수작업으로 설계된 추론 경로에 의존하여 일반화 성능이 제한적인 것에 착안하여, DeepSeek R1 및 OpenAI o1과 같이 보상 기반 자기 탐색을 활용하는 모델들의 성공을 바탕으로, Text-to-SQL 과제에 특화된 부분 보상 집합을 제안합니다. 제안된 부분 보상은 스키마 연결, AI 피드백, n-gram 유사도, 구문 검사를 포함하며, 강화학습에서 흔히 발생하는 보상 희소성 문제를 해결하도록 설계되었습니다. 그룹 상대 정책 최적화(GRPO)를 활용하여, 대규모 언어 모델(LLM)이 정확한 SQL 쿼리 생성에 필요한 내재적 추론 능력을 개발하도록 유도합니다. 다양한 크기의 모델을 사용한 실험 결과, 제안된 부분 보상을 사용한 RL 전용 학습이 지도 학습 미세 조정(SFT)보다 일관되게 높은 정확도와 우수한 일반화 성능을 달성함을 보여줍니다. 특히, RL로 학습된 14B 매개변수 모델은 o3-mini보다 4%, Gemini-1.5-Pro-002보다 3% 높은 정확도를 BIRD 벤치마크에서 달성하여, 제안된 RL 학습 프레임워크의 효과를 입증합니다.