Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

TerraMind : Multimodalité générative à grande échelle pour l'observation de la Terre

Created by
  • Haebom

Auteur

Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Long ep e

Contour

TerraMind est le premier modèle multimodal génératif aléatoire-aléatoire pour l'observation de la Terre. Contrairement aux autres modèles multimodaux, TerraMind est pré-entraîné sur une représentation à double échelle combinant des données au niveau du jeton et au niveau du pixel pour tous les modes. Au niveau du jeton, TerraMind encode des informations contextuelles de grande dimension pour apprendre les relations intermodales, tandis qu'au niveau du pixel, il exploite des représentations fines pour capturer d'importantes nuances spatiales. TerraMind est pré-entraîné sur neuf modes géospatiaux issus d'ensembles de données mondiaux à grande échelle. Cet article démontre que (i) l'approche de fusion précoce à double échelle de TerraMind permet une variété d'applications à zéro et à quelques prises de vue pour l'observation de la Terre ; (ii) TerraMind introduit une fonctionnalité de « pensée en modes » (TiM) qui améliore la sortie du modèle en générant des données artificielles supplémentaires lors des ajustements et des inférences ; et (iii) TerraMind atteint des performances de pointe sur des benchmarks communautaires standard pour l'observation de la Terre, tels que PANGAEA. L'ensemble de données pré-entraîné, les pondérations du modèle et le code sont open source sous une licence permissive.

Takeaways, Limitations

Takeaways:
Présentation du premier modèle multimodal génératif aléatoire-aléatoire pour l'observation de la Terre.
Applications à tir nul et à tirs limités possibles avec fusion initiale à double échelle.
Amélioration des performances du modèle avec la fonctionnalité « Thinking in Mode » (TiM).
Obtenez des performances de pointe dans des benchmarks tels que PANGAEA
Publication open source de modèles, de données et de code
Limitations:
Limitations n'est pas explicitement mentionné dans l'article. D'autres expériences et évaluations pourraient révéler des améliorations concernant les performances de généralisation, les performances sur des types spécifiques de données géospatiales, le coût de calcul, etc.
👍