この論文は、ビジョン言語モデル(VLM)のロボット操作能力を向上させるために、物理的特性の理解を評価する新しいベンチマーク、PAC Benchを提示します。既存のVLMが物理的属性(material、weight)、行為の可能性(graspable、stackable)、物理的制約(stability、reachability)などを十分に理解していないことを指摘し、これを評価するためのPAC Benchは、30,000個以上の注釈付き673個の実画像、100個の実際のヒューマー120の独立したシミュレーション制約シナリオが含まれています。実験結果は、現在VLMの物理的概念の理解に大きな違いがあることを示しており、信頼できるロボット操作のためのVLMの限界と今後の研究の方向性を示しています。 PAC Benchは、VLMの物理的推論能力を厳密に評価し、ロボットアプリケーションにさらに強力で物理的に基づいたモデルを開発するための標準化されたベンチマークとして機能します。