본 논문은 대규모 언어 모델(LLM)의 파인튜닝에 필요한 고품질의 지도 학습 데이터 확보의 어려움을 해결하기 위해, 지식 그래프를 활용한 합성 데이터 생성 프레임워크인 GraphGen을 제시합니다. GraphGen은 원본 텍스트로부터 세분화된 지식 그래프를 구축하고, 예상 보정 오차(expected calibration error)를 사용하여 LLM의 지식 격차를 파악하여 고부가가치 장기간 지식을 우선적으로 QA 쌍을 생성합니다. 또한 다중 홉 이웃 샘플링을 통해 복잡한 관계 정보를 포착하고, 스타일 제어 생성을 통해 다양한 QA 데이터를 생성합니다. 폐쇄형 환경의 지식 집약적 작업에 대한 실험 결과, GraphGen은 기존 합성 데이터 방법보다 우수한 성능을 보이며, 지도 학습 파인튜닝에서 데이터 부족 문제에 대한 더 신뢰할 수 있고 포괄적인 솔루션을 제공합니다. 코드와 데이터는 공개적으로 제공됩니다.