본 논문은 텍스트-SQL 모델 훈련 및 평가를 위한 데이터셋의 한계를 지적하고, 이를 해결하기 위해 새로운 분류 체계를 제안합니다. 핵심 의도, 문장 유형, 구문 구조, 주요 동작 등을 포함하는 이 분류 체계를 사용하여 기존 데이터셋의 커버리지 및 다양성을 평가하고, 이를 기반으로 대규모 언어 모델(LLM)을 활용하여 새로운 데이터셋 SQL-Synth를 생성하는 파이프라인을 제시합니다. 실험 결과, 제안된 SQL-Synth는 기존 데이터셋보다 더 넓은 범위와 복잡성을 보이며, LLM의 성능을 향상시키는 데 기여할 수 있음을 확인합니다.