본 논문은 대규모 언어 모델(LLMs)의 창의적인 콘텐츠 생성 능력 향상을 위한 새로운 방법인 창의적 선호도 최적화(CrPO)를 제안합니다. 기존 방법들이 다양성이나 특정 작업에만 초점을 맞춘 것과 달리, CrPO는 참신성, 다양성, 놀라움, 품질 등 다차원적인 창의성을 모듈 방식으로 선호도 최적화 목표에 통합합니다. 20만 개 이상의 인간 생성 응답과 30가지 이상의 심리적 창의성 평가를 포함하는 대규모 인간 선호도 데이터셋 MuCE를 사용하여 여러 모델을 CrPO로 학습 및 평가한 결과, GPT-4o를 포함한 기존 모델들을 자동 및 인간 평가 모두에서 능가하는 것으로 나타났습니다. NoveltyBench를 이용한 추가 평가를 통해 접근 방식의 일반화 가능성을 확인하였으며, 결과적으로 선호도 프레임워크 내에서 창의성을 직접 최적화하는 것이 출력 품질을 저해하지 않고 LLMs의 창의적 능력을 향상시키는 유망한 방향임을 보여줍니다.