본 논문은 대규모 언어 모델(LLM)을 이용한 고품질 데이터 합성의 어려움을 해결하기 위해, 변분 자동 인코더(VAE) 기반의 제어 가능한 데이터 합성 프레임워크인 DiffLM을 제시합니다. DiffLM은 확산 모델을 활용하여 원본 데이터 분포와 형식 구조에 대한 정보를 더 잘 보존하고, 플러그 앤 플레이 방식의 잠재 특징 주입 모듈을 통해 목표 분포 지식 학습과 LLM의 생성 목표를 분리합니다. VAE의 잠재 표현과 실제 데이터 분포 간의 차이를 해결하기 위해 잠재 확산 모듈을 도입하여 완전한 표현력을 가진 잠재 분포를 학습합니다. 표 형식, 코드, 도구 데이터 등 7개의 실제 데이터셋을 이용한 평가 결과, DiffLM은 고품질 데이터를 생성하며, 특정 경우에는 하위 작업에서 실제 데이터보다 2%-7% 높은 성능을 보였습니다. 코드와 데이터는 깃허브에서 공개됩니다.