本論文は大規模言語モデル(LLM)の事後訓練方法であり,地図微調整と強化学習がモデルの性能向上に寄与するが,出力多様性を減少させて狭く典型的な応答を誘発するという問題点を指摘します。従来の多様性を改善する方法は、推論の時点で機能するか、語彙的な違いにのみ焦点を当てる限界があります。そこで、本論文では決定点過程(DPP)に基づく新しい訓練方法であるDQOを提案します。 DQOは、各プロンプトに対する複数の応答をサンプリングして埋め込み、これらの応答の埋め込みが占める体積を測定することによって多様性を測定します。さまざまなタスク(指示に従う、要約、ストーリーを生成、推論する)の実験は、DQOがモデルの品質を落とさずに意味の多様性を大幅に向上させることを示しています。