Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

GeoChain: Multimodal Chain-of-Thought for Geographic Reasoning

Created by
  • Haebom

作者

Sahiti Yerramilli, Nilay Pande, Rynaa Grover, Jayant Sravan Tamarapalli

概要

GeoChainは、マルチモード大規模言語モデル(MLLM)の段階的な地理的推論を評価するための大規模ベンチマークです。 146万枚のMapillary距離レベル画像を活用して、各画像に21段階の事故過程(CoT)質問シーケンス(3千万以上のQ&Aペア)を結びました。これらのシーケンスは、視覚的、空間的、文化的、正確な地理的位置特定など、4つの推論カテゴリにわたってモデルを概略的な属性から詳細な位置特定に導き、難易度に応じて注釈が異なります。画像にはセマンティックセグメンテーション(150クラス)と視覚的位置チェックスコアも追加されました。さまざまな2,088の画像サブセットに対する最新のMLLM(GPT-4.1バリアント、Claude 3.7、Gemini 2.5バリアント)のベンチマークの結果、モデルは視覚的根拠、不規則な推論、正確な位置決め(特に推論の複雑さが増加した場合)で継続的な困難を示しています。 GeoChainは、MLLM内で複雑な地理的推論の大幅な発展を促進するために重要な強力な診断方法論を提供します。

Takeaways、Limitations

Takeaways:
MLLMの地理的推論能力評価のための標準化された大規模ベンチマークGeoChainの提示
MLLMの視覚的根拠、推論能力、正確な位置特定能力の限界を明確に明らかにする。
MLLMの地理的推論発展のための診断方法論の提供
Limitations:
現在、ベンチマークは限られた数のMLLMと画像サブセットに限定されています。
推論の複雑さが増加するにつれてモデル性能が低下する現象のさらなる分析の必要性
GeoChainのスケーラビリティと様々な地理的環境への適用性に関するさらなる研究が必要
👍