Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Landsat30-AU : un ensemble de données vision-langage pour l'imagerie Landsat australienne

Created by
  • Haebom

Auteur

Sai Ma, Zhuang Li, John A Taylor

Contour

Afin de pallier les limites des modèles vision-langage (VLM) permettant l'interaction en langage naturel avec l'imagerie satellitaire, cet article présente Landsat30-AU, un jeu de données vision-langage à grande échelle basé sur plus de 36 ans d'imagerie satellitaire basse résolution à long terme à 30 mètres, collectée par quatre satellites Landsat (5, 7, 8 et 9) au-dessus de l'Australie. Landsat30-AU se compose de deux éléments : Landsat30-AU-Cap, contenant 196 262 paires image-légende, et Landsat30-AU-VQA, contenant 17 725 échantillons de questions-réponses visuelles (VQA) vérifiés par l'homme dans huit domaines de télédétection. Nous démontrons que les VLM existants peinent à comprendre l'imagerie satellitaire basse résolution et démontrons des performances améliorées grâce à un réglage fin léger utilisant Landsat30-AU.

Takeaways, Limitations

Takeaways:
Nous fournissons un ensemble de données de langage de vision à grande échelle, Landsat30-AU, contenant des données multisatellites à long terme et à faible résolution, posant les bases pour surmonter les limites des VLM existants.
Nous avons démontré expérimentalement l’inadéquation des VLM existants dans la compréhension des images satellites et suggéré la possibilité d’une amélioration des performances grâce à un réglage fin.
Il ouvre de nouvelles possibilités pour l’observation de la Terre et la recherche d’analyse basée sur l’imagerie satellite à basse résolution.
Limitations:
ÉTant donné que l’ensemble de données est limité à la région australienne, une validation supplémentaire des performances de généralisation mondiale est nécessaire.
Actuellement, la capacité des VLM à comprendre l’imagerie satellite est encore limitée et des modèles et techniques plus avancés sont nécessaires.
Il manque une description détaillée du pipeline d'amorçage utilisé lors de la création de l'ensemble de données.
👍