자연어 요청을 안정적이고 프로덕션 준비가 된 데이터 변환으로 변환하는 것은 여전히 어려운 과제입니다. 정확성은 정확한 스키마 연결 및 창고별 SQL 방언에 달려 있으며, 훈련 중에 사용할 수 있는 가장 강력한 감독(실행 성공 및 결과 일치)은 시퀀스 수준에서만 제공됩니다. 동시에, 크고 실행 검증된 코퍼스를 조립하는 것은 비용이 많이 들고, 토큰 수준 목표는 이러한 글로벌 신호와 일치하지 않아 불안정한 최적화와 제한된 이식성을 초래합니다. Thinkquel은 견고하고 이식 가능하며 실행 검증된 데이터베이스 쿼리를 생성하기 위해 미세 조정된 모델입니다. Thinkquel의 방법론은 dbt를 이식 가능한 중간 표현으로 활용하는 새로운 합성 데이터 파이프라인 TS-SQL과 LLM을 미세 조정할 때 토큰 수준 훈련 신호와 시퀀스 수준 실행 보상 간의 격차를 해소하도록 특별히 설계된 Span-Aware Reinforcement Learning 목표, TS-GRPO (Token-Sequence GRPO)를 통합합니다. 500개 예제의 TS-SQL 테스트 세트에서 Thinkquel (32B)은 2단계 SFT 커리큘럼으로 93.2%의 실행 성공률과 61.8%의 정확한 결과 일치를 달성하여 기본 모델보다 67.2% (실행) 및 44.4% (일치) 향상되었습니다. Spider (14B) 실험에서 TS-GRPO는 GRPO 및 GSPO에 비해 실행 일치 보상의 훈련 안정성을 높이고 수렴 속도를 높입니다.