自然言語の要求を信頼性が高く実稼働可能なデータ変換に変換することは依然として難しい課題です。正確性は正確なスキーマ接続と倉庫固有のSQL方言に依存し、トレーニング中に使用できる最も強力な監督(実行成功と結果一致)はシーケンスレベルでのみ提供されます。同時に、大規模で実績のあるコーパスを組み立てるのは費用がかかり、トークンレベルの目標はこれらのグローバル信号と一致しないため、不安定な最適化と制限された移植性をもたらします。 Thinkquelは、堅牢で移植可能で実行検証済みのデータベースクエリを生成するために微調整されたモデルです。 Thinkquelの方法論は、DBTを移植可能な中間表現として活用する新しい合成データパイプラインTS-SQLとLLMを微調整する際に、トークンレベルのトレーニング信号とシーケンスレベルの実行補償とのギャップを解消するように特別に設計されたSpan-Aware Reinforcement Learning目標、TS-GRPO(Token-Sequence GRPO)を統合します. 500例のTS-SQLテストセットでは、Thinkquel(32B)は2段階のSFTカリキュラムで93.2%の実行成功率と61.8%の正確な結果一致を達成し、基本モデルより67.2%(実行)および44.4%(一致)向上しました。 Spider(14B)実験では、TS-GRPOはGRPOおよびGSPOと比較して実行マッチング報酬の訓練安定性を高め、収束を高速化した。