本論文では、NVIDIAのDescribe Anythingモデルが生成したビジョン言語記述をGPT-4o、GPT-4o-mini、GPT-5の3つのGPT変形モデルが評価する過程を分析し、各モデルの固有の「評価性格」、すなわち評価戦略と偏りを明らかにしています。 GPT-4o-miniは一貫性が高くボラティリティが低いが、GPT-4oは誤り検出に精通しており、GPT-5は非常に保守的でボラティリティの高い特徴を示す。 Gemini 2.5 Proを使用した制御実験は、これらの性質がモデルの固有の特性であることを確認し、生成された質問の意味的類似性分析により、GPTモデルとGeminiモデルの間の評価戦略の大きな違いを発見しました。すべてのGPTモデルは、肯定的な確認よりも否定的な評価を2:1の割合で好む一貫した偏りを示したが、これはAIアーキテクチャ全体にわたる普遍的な現象ではなく、特定の系列に限定されていることがわかった。