본 논문은 기존 Text-to-SQL 및 질의응답 모델의 한계를 극복하기 위해 통계 분석을 포함하는 새로운 Text-to-Code Semantic Parsing 데이터셋 SIGMA를 제안합니다. SIGMA는 160개의 데이터베이스를 기반으로 6000개의 질문과 해당하는 Python 코드 레이블을 포함하며, 질문의 절반은 기존 정보 추출, 나머지 절반은 통계 분석 질문으로 구성됩니다. Python 코드 레이블은 4가지 유형의 질의와 40가지 유형의 통계 분석 패턴을 포함합니다. LGESQL, SmBoP, SLSQL 세 가지 기준 모델을 사용하여 SIGMA 데이터셋을 평가한 결과, LGESQL 모델(ELECTRA 사용)이 83.37%의 구조 정확도를 달성하여 가장 우수한 성능을 보였고, SmBoP 모델(GraPPa 및 T5 사용)은 76.38%의 실행 정확도를 달성했습니다.