본 논문은 창의적인 작업에 대한 대규모 언어 모델(LLM)의 활용이 증가함에도 불구하고, 그 출력물이 종종 다양성이 부족하다는 문제를 다룬다. 높은 온도에서 샘플링하는 등의 일반적인 해결책은 결과의 질을 저하시킬 수 있다는 한계가 있다. 이러한 트레이드오프 문제는 창의성을 위한 AI 시스템 설계에서 여전히 해결되지 않은 과제이다. 본 논문에서는 정보 이론을 활용하여 가치와 독창성을 정량적으로 평가하는 컨텍스트 기반 점수를 제안한다. 이 점수는 정확성과 요청 준수를 유도하는 동시에 학습된 분포로부터의 발산을 촉진한다. 본 논문은 이 점수를 강화 학습 프레임워크에서 보상으로 사용하여 대규모 언어 모델을 최대 성능으로 미세 조정할 수 있음을 보여준다. 시, 수학 문제 해결과 같은 다양한 창의적 작업을 고려한 실험을 통해 생성된 솔루션의 가치와 독창성을 향상시킨다는 것을 검증한다.