Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

TerraMind: Multimodalidad generativa a gran escala para la observación de la Tierra

Created by
  • Haebom

Autor

Johannes Jakubik, Felix Yang, Benedikt Blumenstiel, Erik Scheurer, Rocco Sedona, Stefano Maurogiovanni, Jente Bosmans, Nikolaos Dionelis, Valerio Marsocci, Niklas Kopp, Rahul Ramachandran, Paolo Fraccaro, Thomas Brunschwiler, Gabriele Cavallaro, Juan Bernabe-Moreno, Nicolas Long ep e

Describir

TerraMind es el primer modelo multimodal generativo aleatorio a aleatorio para la observación de la Tierra. A diferencia de otros modelos multimodales, TerraMind está preentrenado con una representación de doble escala que combina datos a nivel de token y de píxel en todos los modos. A nivel de token, TerraMind codifica información contextual de alta dimensión para aprender relaciones intermodales, mientras que a nivel de píxel, aprovecha representaciones de granularidad fina para capturar matices espaciales importantes. TerraMind está preentrenado con nueve modos geoespaciales de conjuntos de datos globales a gran escala. Este artículo demuestra que (i) el enfoque de fusión temprana a doble escala de TerraMind permite diversas aplicaciones de cero disparos y de pocos disparos para la observación de la Tierra; (ii) TerraMind introduce una función de "pensamiento en modos" (TiM) que mejora el resultado del modelo mediante la generación de datos artificiales adicionales durante el ajuste fino y la inferencia; y (iii) TerraMind alcanza un rendimiento de vanguardia en los estándares de referencia de la comunidad para la observación de la Tierra, como PANGAEA. El conjunto de datos previamente entrenados, los pesos del modelo y el código son de código abierto bajo una licencia permisiva.

Takeaways, Limitations

Takeaways:
Presentamos el primer modelo generativo multimodal aleatorio a aleatorio para la observación de la Tierra.
Son posibles aplicaciones de disparo cero y de pocos disparos con fusión inicial de doble escala.
Mejora del rendimiento del modelo con la función "Pensar en modo" (TiM).
Consiga un rendimiento de vanguardia en puntos de referencia como PANGAEA
Lanzamiento de código abierto de modelos, datos y código
Limitations:
Limitations no se menciona explícitamente en el artículo. Experimentos y evaluaciones posteriores podrían revelar Limitations en cuanto al rendimiento de generalización, el rendimiento en tipos específicos de datos geoespaciales, el coste computacional, etc.
👍