본 논문은 대규모 언어 모델(LLM)을 이용한 데이터 합성의 다양성 부족, 프롬프트 불충실성, 편향 문제를 해결하기 위해, 상관된 샘플링 전략을 사용하는 CorrSynth 방법을 제안합니다. CorrSynth는 디코딩 시간 안내 기반 접근 방식을 통해 다양하고 프롬프트에 충실한 데이터를 생성하며, 분류기 기반 안내와 같은 다른 안내 기반 기법의 복잡성 문제 또한 극복합니다. 실험 결과, CorrSynth는 네 가지 데이터셋에서 경쟁 기법 대비 학생 모델 성능과 데이터 다양성을 모두 향상시키는 것을 보여줍니다.