강화 학습(RL)은 대규모 언어 모델(LLM)의 post-training에 널리 사용되지만, 모델의 출력 다양성을 감소시키는 경향이 있다. 기존 다양성 향상 방법은 추론 시간에 작동하거나 표면적인 차이에 초점을 맞추는 한계가 있다. 본 논문은 DPP(determinantal point processes) 기반의 DQO(Diversity Quality Optimization)라는 새로운 훈련 방법을 제안하여 품질과 의미적 다양성을 공동으로 최적화한다. DQO는 각 프롬프트에 대해 응답 그룹을 샘플링하고 임베딩한 다음, 커널 기반 유사성 행렬의 행렬식을 사용하여 이러한 응답의 임베딩이 나타내는 볼륨으로 다양성을 측정한다. DQO는 유연하며 기존 RL 알고리즘에 적용할 수 있다. Instruction-following, 요약, 스토리 생성, 추론 작업에 대한 실험에서 DQO는 모델 품질을 저하시키지 않으면서 의미적 다양성을 크게 향상시켰음을 입증했다.