本論文は、ユーザー中心のAIシステムにおける重要な視覚的パーソナライゼーションに焦点を当てた研究で、大規模なVision-Language Models(VLM)のパーソナライゼーション能力を評価するための最初の広範なベンチマークであるMMPBを紹介します。 MMPBは、10,000の画像 - クエリペアと4つのカテゴリ(人間、動物、オブジェクト、キャラクター)にわたって111個のパーソナライズ可能な概念で構成されており、人間カテゴリには好みベースのクエリが含まれています。パーソナライゼーションを3つの主要なタスクタイプに構造化し、23の広く使用されているVLMのパフォーマンスを評価し、ほとんどのVLMがパーソナライゼーションに困難を経験していることを発見しました。