본 논문은 대규모 언어 모델(LLM)을 이용한 Text-to-SQL 작업에서 Chain-of-Thought(CoT) 추론의 효과적인 활용 방안을 제시합니다. 기존의 zero-shot CoT 및 Direct Preference Optimization(DPO) 방식의 한계를 지적하고, CoT 추론과 off-policy 및 on-policy DPO를 결합한 새로운 프레임워크인 ExCoT를 제안합니다. ExCoT는 실행 정확도만을 피드백으로 사용하여 보상 모델이나 인간의 주석이 필요 없다는 장점이 있습니다. 실험 결과, ExCoT는 LLaMA-3 70B 및 Qwen-2.5-Coder 모델에서 BIRD 및 Spider 데이터셋의 실행 정확도를 크게 향상시켰으며, 단일 모델 기준으로 최첨단 성능을 달성했습니다.