本論文では、マーケティング創造性の分野で大規模言語モデル(LLM)を評価するためのフレームワークであるCreativity Benchmarkを紹介します。このベンチマークには、100のブランド(12のカテゴリ)と3つのプロンプトタイプ(洞察力、アイデア、奇抜なアイデア)が含まれます。 678人の現代クリエイティブ専門家が11,012の匿名比較に対して行った人間のペアの好みデータをBradley-Terryモデルで分析した結果、モデル間の性能が密集しており、特定モデルがすべてのブランドやプロンプトタイプで優位を占めなかった。さらに、コサイン距離を用いてモデル多様性を分析し、プロンプト再構成の感度を測定した。人間評価とLLMを審査委員として使用する3つの設定を比較した結果、弱く一貫性のない相関関係と審査委員別偏向が現れ、自動化された審査委員が人間評価に代わることができないことを示す。伝統的な創造性テストもブランド制約のある作業には部分的にしか適用できませんでした。