Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Creativity Benchmark: A benchmark for marketing creativity for large language models

Created by
  • Haebom

作者

Ninad Bhat, Kieran Browne, Pip Bingemann

概要

本論文では、マーケティング創造性の分野で大規模言語モデル(LLM)を評価するためのフレームワークであるCreativity Benchmarkを紹介します。このベンチマークには、100のブランド(12のカテゴリ)と3つのプロンプトタイプ(洞察力、アイデア、奇抜なアイデア)が含まれます。 678人の現代クリエイティブ専門家が11,012の匿名比較に対して行った人間のペアの好みデータをBradley-Terryモデルで分析した結果、モデル間の性能が密集しており、特定モデルがすべてのブランドやプロンプトタイプで優位を占めなかった。さらに、コサイン距離を用いてモデル多様性を分析し、プロンプト再構成の感度を測定した。人間評価とLLMを審査委員として使用する3つの設定を比較した結果、弱く一貫性のない相関関係と審査委員別偏向が現れ、自動化された審査委員が人間評価に代わることができないことを示す。伝統的な創造性テストもブランド制約のある作業には部分的にしか適用できませんでした。

Takeaways、Limitations

モデル間のパフォーマンスの違いは大きくないため、特定のモデルがすべてのブランドまたはプロンプトタイプで優位性を占めるわけではありません。
人間の評価は重要であり、自動化された審査員は人間の評価を置き換えることはできません。
モデルの多様性を考慮し、プロンプトの再構成に対する感度を把握することが重要です。
伝統的な創造性テストはブランド制約のある作業には完全には適用されません。
👍