将自然语言请求转换为健壮的、可立即投入生产的数据转换仍然是一项艰巨的任务。准确性依赖于精确的模式映射和特定于仓库的 SQL 方言,而训练期间可用的最强监督(执行成功和结果匹配)仅在序列级别提供。同时,组装大型、经过执行验证的语料库成本高昂,并且 token 级别的目标与这些全局信号不一致,导致优化不稳定且可移植性受限。Thinkquel 是一个经过微调的模型,用于生成健壮、可移植且经过执行验证的数据库查询。Thinkquel 的方法结合了 TS-SQL(一种利用 dbt 作为可移植中间表示的新型合成数据管道)和 TS-GRPO(Token-Sequence GRPO),后者是一种跨度感知的强化学习目标,专门设计用于在微调 LLM 时弥合 token 级别训练信号和序列级别执行奖励之间的差距。在 500 个 TS-SQL 测试集上,Thinkquel (32B) 使用两阶段 SFT 课程实现了 93.2% 的执行成功率和 61.8% 的准确匹配率,较基线模型分别提升 67.2%(执行)和 44.4%(匹配)。在 Spider (14B) 实验中,TS-GRPO 相比 GRPO 和 GSPO 提升了训练稳定性和收敛速度。