본 논문은 대규모 언어 모델(LLM)을 이용한 합성 표 데이터 생성의 질적 평가에 초점을 맞추고 있다. 기존의 합성 데이터 평가 방식인 train-synthetic-test-real 접근법의 한계(실제 데이터와의 분포 차이 직접 측정 불가)를 지적하며, 데이터 내 열 간 상호 의존성을 분석하는 엄격한 평가 방법을 제시한다. GPT-2(few-shot prompting 및 fine-tuning 적용)와 CTGAN 모델을 이용한 실험 결과, LLM 및 GAN 모델이 실제 데이터의 상호 의존성을 충분히 반영하지 못하는 것을 확인하고, 향후 합성 데이터 생성 방식 개선을 위한 시사점을 제시한다.