GeoChainは、マルチモード大規模言語モデル(MLLM)の段階的な地理的推論を評価するための大規模ベンチマークです。 146万枚のMapillary距離レベル画像を活用して、各画像に21段階の事故過程(CoT)質問シーケンス(3千万以上のQ&Aペア)を結びました。これらのシーケンスは、視覚的、空間的、文化的、正確な地理的位置特定など、4つの推論カテゴリにわたってモデルを概略的な属性から詳細な位置特定に導き、難易度に応じて注釈が異なります。画像にはセマンティックセグメンテーション(150クラス)と視覚的位置チェックスコアも追加されました。さまざまな2,088の画像サブセットに対する最新のMLLM(GPT-4.1バリアント、Claude 3.7、Gemini 2.5バリアント)のベンチマークの結果、モデルは視覚的根拠、不規則な推論、正確な位置決め(特に推論の複雑さが増加した場合)で継続的な困難を示しています。 GeoChainは、MLLM内で複雑な地理的推論の大幅な発展を促進するために重要な強力な診断方法論を提供します。